Задача 1. По условным данным таблицы о стоимости основных фондов х
и валовом выпуске продукции у
(в порядке возрастания стоимости основных фондов) выявить наличие и характер корреляционной связи между признаками x
и y
.
Таблица. Стоимость основных фондов и валовой выпуск по 10 однотипным предприятиям
Предприятия i |
Основные производственные |
Валовой выпуск |
||
1 |
12 |
28 |
– |
– |
Решение.
Для выявления наличия и характера корреляционной связи между двумя признаками в статистике используется ряд
методов
.
1. Графический метод
,
когда корреляционную зависимость для наглядности можно изобразить графически. Для этого, имея n
взаимосвязанных пар значений x
и y
и пользуясь прямоугольной системой координат, каждую такую пару изображают в виде точки на плоскости с координатами x
и y
. Соединяя последовательно нанесенные точки, получают ломаную линию, именуемую эмпирической линией регрессии
(см. рисунок справа). Анализируя эту линию, визуально можно определить характер зависимости между признаками x
и y
. В нашей задаче эта линия похожа на восходящую прямую, что позволяет выдвинуть гипотезу о наличии прямой зависимости между величиной основных фондов и валовым выпуском продукции.
2. Рассмотрение параллельных данных
(значений x
и y
в каждой из n
единиц). Единицы наблюдения располагают по возрастанию значений факторного признака х
и затем сравнивают с ним (визуально) поведение результативного признака у
. В нашей задаче в большинстве случаев по мере увеличения значений x
увеличиваются и значения y
(за несколькими исключениями – 2 и 3, 6 и 7 предприятия), поэтому, можно говорить о прямой связи между х
и у
(этот вывод подтверждает и эмпирическая линия регрессии). Теперь необходимо ее измерить, для чего рассчитывают несколько коэффициентов.
3. Коэффициент корреляции знаков (Фехнера
)
– простейший показатель тесноты связи, основанный на сравнении поведения отклонений индивидуальных значений каждого признака (x
и y
) от своей средней величины. При этом во внимание принимаются не величины отклонений () и (), а их знаки («+» или «–»). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений (С
) и несовпадений (Н
). Тогда коэффициент Фехнера рассчитывается как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:
.
Очевидно, что если знаки всех отклонений по каждому признаку совпадут, то КФ=
1, что характеризует наличие прямой связи. Если все знаки не совпадут, то КФ=–
1(обратная связь). Если же å
С=
å
Н
, то КФ=
0. Итак, как и любой показатель тесноты связи, коэффициент Фехнера может принимать значения от 0 до 1. Однако, если КФ=
1, то это ни в коей мере нельзя воспринимать как свидетельство функциональной зависимости между х
и у
.
В нашей задаче ; .
В двух последних столбцах таблицы приведены знаки отклонений каждого х
и у
от своей средней величины.
Число совпадений знаков – 9, а несовпадений – 1. Отсюда КФ==0,8 .
Обычно такое значение показателя тесноты связи характеризует сильную зависимость, однако, следует иметь в виду, что поскольку КФ
зависит только от знаков и не учитывает величину самих отклонений х
и у
от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление.
4.
Линейный коэффициент корреляции
применяется в случае линейной зависимости между двумя количественными признаками x
и y
. В отличие от КФ в линейном коэффициенте корреляции учитываются не только знаки отклонений от средних величин, но и значения самих отклонений, выраженные для сопоставимости в единицах среднего квадратического отклонения t
:
и .
Линейный коэффициент корреляции r
представляет собой среднюю величину из произведений нормированных отклонений для x
и у
:
, или .
Числитель формулы, деленный на n
, т.е. , представляет собой среднее произведение отклонений значений двух признаков от их средних значений, именуемое ковариацией
. Поэтому можно сказать, что линейный коэффициент корреляции представляет собой частное от деления ковариации между х
и у
на произведение их средних квадратических отклонений. Путем несложных математических преобразований можно получить и другие модификации формулы линейного коэффициента корреляции, например:
.
Линейный коэффициент корреляции может принимать значения от –1 до +1, причем знак определяется в ходе решения.
Например, если , то r по формуле будет положительным, что характеризует прямую зависимость между х и у , в противном случае (r < 0) – обратную связь.
Если , то r
=
0, что означает отсутствие линейной зависимости между х
и у
, а при r
=
1 – функциональная зависимость между х
и у
. Следовательно, всякое промежуточное значение r
от 0 до 1 характеризует степень приближения корреляционной связи между х
и у
к функциональной. Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х
и у
к линейной. Поэтому близость значения r
к 0 в одних случаях может означать отсутствие связи между х
и у
, а в других свидетельствовать о том, что зависимость не линейная.
В нашей задаче для расчета r
построим вспомогательную таблицу.
Таблица. Вспомогательные расчеты линейного коэффициента корреляции
i | |||||||||
В нашей задаче: = =29,299; ==65,436.
Тогда r = 9,516166/10 = 0,9516.
Аналогично: r = 1824,4/(29,299*65,436) = 0,9516
или r
= (7024,4 – 52*100) / (29,299*65,436) = 0,9516, то есть связь между величиной основных фондов и валовым выпуском продукции очень близка к функциональной.
Проверка коэффициента корреляции на значимость (существенность).
Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения x
и y
, на основе которых он рассчитан. Другими словами, как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями. Для того, чтобы оценить существенность (значимость) самого r
и, соответственно, реальность измеряемой связи между х
и у
, необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции σ
r
. Оценка существенности (значимости) r
основана на сопоставлении значения r
с его средней квадратической ошибкой: .
Существуют некоторые особенности расчета σ
r
в зависимости от числа наблюдений (объема выборки) – n
.
- Если число наблюдений достаточно велико (n >30), то σ r рассчитывается по формуле (86):
.
Обычно, если >3, то r
считается значимым (существенным), а связь – реальной.
Задавшись определенной вероятностью, можно определить доверительные пределы (границы)
r = (), где t – коэффициент доверия, рассчитываемый по интегралу Лапласа (см. таблицу 4).
- Если число наблюдений небольшое (n <30), то σ r рассчитывается по формуле:
,
а значимость r
проверяется на основе t
-
критерия Стьюдента, для чего определяется расчетное значение критерия по формуле (88) и сопоставляется c t
ТАБЛ
.
.
Табличное значение t
ТАБЛ
находится по таблице распределения t
-критерия Стьюдента (см. приложение 2) при уровне значимости α=1-β
и числе степеней свободы ν=
n
–2
. Если t
РАСЧ
>
t
ТАБЛ
,то r
считается значимым, а связь между х
и у
– реальной. В противном случае (t
РАСЧ
<
t
ТАБЛ
) считается, что связь между х
и у
отсутствует, и значение r
, отличное от нуля, получено случайно.
В нашей задаче число наблюдений небольшое, значит, оценивать существенность (значимость) линейного коэффициента корреляции будем по формулам:
= 0,3073/2,8284 = 0,1086; = 0,9516/0,1086 = 8,7591.
При вероятности 95% t
табл
=
2,306, а при вероятности 99% t
табл
=
3,355, значит, t
РАСЧ
>
t
ТАБЛ
, что дает возможность считать линейный коэффициент корреляции r
= 0,9516 значимым.
5.
Подбор уравнения регрессии
представляет собой математическое описание изменения взаимно коррелируемых величин по эмпирическим (фактическим) данным. Уравнение регрессии должно определить, каким будет среднее значение результативного признака у
при том или ином значении факторного признака х,
если остальные факторы, влияющие на у
и не связанные с х,
не учитывать, т.е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака у
со значениями факторного признака х.
Уравнение регрессии можно также назвать теоретической линией регрессии.
Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими
.Они обычно обозначаются (читается: «игрек, выравненный по х»)
и рассматриваются как функция от х
, т.е. =
f
(x
).
(Иногда для простоты записи вместо пишут .
)
Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками х
и у, -
одна из основных задач регрессионного анализа. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.
Для аналитической связи между х
и у
могут использоваться следующие простые виды уравнений:
– прямая линия; – парабола;
– гипербола; – показательная функция;
– логарифмическая функция и др.
Обычно зависимость, выражаемую уравнением прямой, называют линейной
(или прямолинейной),
а все остальные - криволинейными зависимостями
.
Выбрав тип функции, по эмпирическим данным определяют параметры уравнения. При этом отыскиваемые параметры должны быть такими, при которых рассчитанные по уравнению теоретические значения результативного признака были бы максимально близки к эмпирическим данным.
Существует несколько методов нахождения параметров уравнения регрессии. Наиболее часто используется метод наименьших квадратов
(МНК). Его суть заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е.
.
Поставив данное условие, легко определить, при каких значениях , и т.д. для каждой аналитической кривой эта сумма квадратов отклонений будет минимальной. Данный метод уже использовался нами в методических указаниях к теме 4 «Ряды динамики», поэтому, воспользуемся формулой (57) для нахождения параметров теоретической линии регрессии в нашей задаче, заменив параметр t
на x
.
Исходные данные и все расчеты необходимых сумм представим в таблице:
Таблица. Вспомогательные расчеты для решения задачи
i | |||||||
5; x
и y
и измерить тесноту этой связи: коэффициент Фехнера и линейный коэффициент корреляции. |
Коэффициент
корреляции, предложенный во II–й
половине XIX
века Г. Т. Фехнером, является наиболее
простой мерой связи между двумя
переменными. Он основан на сопоставлении
двух психологических признаков x
i
и y
i
,
измеренных на одной и той же выборке,
по сопоставлению знаков отклонений
индивидуальных значений от среднего:
и
.
Вывод о корреляции между двумя переменными
делается на основании подсчета числа
совпадений и несовпадений этих знаков.
Пример
Пусть x i и y i – два признака, измеренные на одной и той же выборке испытуемых. Для вычисления коэффициента Фехнера необходимо вычислить средние значения для каждого признака, а также для каждого значения переменной – знак отклонения от среднего (табл. 8.1):
Таблица 8.1
x i |
y i |
Обозначение |
|||
В таблице: а – совпадения знаков, b – несовпадения знаков; n a – число совпадений, n b – число несовпадений (в данном случае n a = 4, n b = 6).
Коэффициент корреляции Фехнера вычисляется по формуле:
(8.1)
В рассматриваемом случае:
Вывод
Между исследуемыми переменными существует слабая отрицательная связь.
Необходимо отметить, что коэффициент корреляции Фехнера не является достаточно строгим критерием, поэтому его можно использовать лишь на начальном этапе обработки данных и для формулировки предварительных выводов.
8. 4. Коэффициент корреляции Пирсона
Исходный принцип коэффициента корреляции Пирсона – использование произведения моментов (отклонений значения переменной от среднего значения):
Если сумма произведений моментов велика и положительна, то х и у связаны прямой зависимостью; если сумма велика и отрицательна, то х и у сильно связаны обратной зависимостью; наконец, в случае отсутствия связи между x и у сумма произведений моментов близка к нулю.
Для того чтобы статистика не зависела от объема выборки, берется не сумма произведений моментов, а среднее значение. Однако деление производится не на объем выборки, а на число степеней свободы n - 1.
Величина
является мерой связи междух
и у
и называется ковариацией х
и у
.
Во многих задачах естественных и технических наук ковариация является вполне удовлетворительной мерой связи. Ее недостатком является то, что диапазон ее значений не фиксирован, т. е. она может варьировать в неопределенных пределах.
Для того чтобы стандартизировать меру связи, необходимо избавить ковариацию от влияния стандартных отклонений. Для этого надо разделить S xy на s x и s y:
(8.3)
где r xy - коэффициент корреляции, или произведение моментов Пирсона.
Общая формула для вычисления коэффициента корреляции выглядит следующим образом:
(некоторые преобразования)
(8.4)
Влияние преобразования данных на r xy:
1. Линейные преобразования x и y типа bx + a и dy + c не изменят величину корреляции между x и y .
2. Линейные преобразования x и y при b < 0, d > 0, а также при b > 0 и d < 0 изменяют знак коэффициента корреляции, не меняя его величины.
Достоверность (или, иначе, статистическая значимость) коэффициента корреляции Пирсона может быть определена разными способами:
По таблицам критических значений коэффициентов корреляции Пирсона и Спирмена (см. Приложение, табл. XIII). Если полученное в расчетах значение r xy превышает критическое (табличное) значение для данной выборки, коэффициент Пирсона считается статистически значимым. Число степеней свободы в данном случае соответствует n – 2, где n – число пар сравниваемых значений (объем выборки).
По таблице XV Приложений, которая озаглавлена «Количество пар значений, необходимое для статистической значимости коэффициента корреляции». В данном случае необходимо ориентироваться на коэффициент корреляции, полученный в вычислениях. Он считается статистически значимым, если объем выборки равен или превышает табличное число пар значений для данного коэффициента.
По коэффициенту Стьюдента, который вычисляется как отношение коэффициента корреляции к его ошибке:
(8.5)
Ошибка коэффициента корреляции вычисляется по следующей формуле:
где m r - ошибка коэффициента корреляции, r - коэффициент корреляции; n - число сравниваемых пар.
Рассмотрим порядок вычислений и определение статистической значимости коэффициента корреляции Пирсона на примере решения следующей задачи.
Условие задачи
22 старшеклассника были протестированы по двум тестам: УСК (уровень субъективного контроля) и МкУ (мотивация к успеху). Получены следующие результаты (табл. 8.2):
Таблица 8.2
УСК (x i ) |
МкУ (y i ) |
УСК (x i ) |
МкУ (y i ) |
||
Задание
Проверить гипотезу о том, что для людей с высоким уровнем интернальности (балл УСК) характерен высокий уровень мотивации к успеху.
Решение
1. Используем коэффициент корреляции Пирсона в следующей модификации (см. формулу 8.4):
Для удобства обработки данных на микрокалькуляторе (в случае отсутствия необходимой компьютерной программы) рекомендуется оформление промежуточной рабочей таблицы следующего вида (табл. 8.3):
Таблица 8.3
x i y i |
||||
x 1 y 1 x 2 y 2 x 3 y 3 x n y n |
||||
Σx i y i |
2. Проводим вычисления и подставляем значения в формулу:
3. Определяем статистическую значимость коэффициента корреляции Пирсона тремя способами:
1-й способ:
В табл. XIII Приложений находим критические значения коэффициента для 1-го и 2-го уровней значимости: r кр. = 0,42; 0,54 (ν = n – 2 = 20).
Делаем вывод о том, r xy > r кр . , т. е. корреляция является статистически значимой для обоих уровней.
2-й способ:
Воспользуемся табл. XV, в которой определяем число пар значений (число испытуемых), достаточное для статистической значимости коэффициента корреляции Пирсона, равного 0,58: для 1-го, 2-го и 3-го уровней значимости оно составляет, соответственно, 12, 18 и 28.
Отсюда мы делаем вывод о том, что коэффициент корреляции является значимым для 1-го и 2-го уровня, но «не дотягивает» до 3-го уровня значимости.
3-й способ:
Вычисляем ошибку коэффициента корреляции и коэффициент Стьюдента как отношение коэффициента Пирсона к ошибке:
В табл. X находим стандартные значения коэффициента Стьюдента для 1-го, 2-го и 3-го уровней значимости при числе степеней свободы ν = n – 2 = 20: t кр. = 2,09; 2,85; 3,85.
Общий вывод
Корреляция между показателями тестов УСК и МкУ является статистически значимой для 1-го и 2-го уровней значимости.
Примечание:
При интерпретации коэффициента корреляции Пирсона необходимо учитывать следующие моменты:
Коэффициент Пирсона может использоваться для различных шкал (шкала отношений, интервальная или порядковая) за исключением дихотомической шкалы.
Корреляционная связь далеко не всегда означает связь причинно-следственную. Другими словами, если мы нашли, предположим, положительную корреляцию между ростом и весом у группы испытуемых, то это вовсе не означает, что рост зависит от веса или наоборот (оба этих признака зависят от третьей (внешней) переменной, каковая в данном случае связана с генетическими конституциональными особенностями человека).
r xu » 0 может наблюдаться не только при отсутствии связи между x и y , но и в случае сильной нелинейной связи (рис. 8.2 а). В данном случае отрицательная и положительная корреляции уравновешиваются и в результате создается иллюзия отсутствия связи.
r xy может быть достаточно мал, если сильная связь между х и у наблюдается в более узком диапазоне значений, чем исследуемый (рис. 8.2 б).
Объединение выборок с различными средними значениями может создавать иллюзию достаточно высокой корреляции (рис. 8.2 в).
y i y i y i
+ + . . |
x i x i x i
Рис. 8.2. Возможные источники ошибок при интерпретации величины коэффициента корреляции (объяснения в тексте (пункты 3 – 5 примечания))
Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон (англ.)русск. в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле :
где , - среднее значение выборок.
Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы .
Коэффициент ранговой корреляции Кендалла
Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:
,
большим значением рангов Y.
Суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)
Коэффициент ранговой корреляции Спирмена
Степень зависимости двух случайных величин (признаков) X и Y может характеризоваться на основе анализа получаемых результатов . Каждому показателю X и Y присваивается ранг. Ранги значений X расположены в естественном порядке i=1, 2, . . ., n. Ранг Y записывается как Ri и соответствует рангу той пары (X, Y), для которой ранг X равен i. На основе полученных рангов Х i и Yi рассчитываются их разности и вычисляется коэффициент корреляции Спирмена:
Значение коэффициента меняется от −1 (последовательности рангов полностью противоположны) до +1 (последовательности рангов полностью совпадают). Нулевое значение показывает, что признаки независимы.
Коэффициент корреляции знаков Фехнера
Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.
C - число пар, у которых знаки отклонений значений от их средних совпадают.
H - число пар, у которых знаки отклонений значений от их средних не совпадают.
Литература: http://ru.wikipedia.org/wiki/%CA%EE%F0%F0%E5%EB%FF%F6%E8%FF
9. вычислите коэффициент корреляции Спирмэна.
Оценка взаимосвязи показателей: X – место занятое в стрельбе из винтовки; Y – количество попаданий в десятку. Все прочие условия примерно одинаковы. Результаты соревнований представлены в Таблице №1
Таблица №1 Расчет рангового коэффициента корреляции Спирмэна.
Пояснение:
шаг 1. Проранжировать (упорядочить и приписать порядковые номера) показатели X и Y. Так как X упорядочен и обозначает соответствующие ранги, перепишем его в столбец 3. показателю Y приписываем ранги следующим образом: значению 10 – ранг 1; 9 – ранг (2+3)/2=2,5; 8 – ранг 4; 7 – ранг 5 и т. д. (столбец 4)
шаг 2. вычислить разность рангов d=Dx-Dy(столбец 5)
шаг 3. вычислить квадрат разности d=(Dx-Dy)2 (столбец 6)
шаг 4. вычислить сумму квадратов разности
Коэффициент Фехнера - это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков. Коэффициент Фехнера наряду с такими коэффициентами, как коэффициент Спирмэна и коэффициент Кэндэла, относится к коэффициентам корреляции знаков .Назначение сервиса . Данный сервис предназначен для расчета коэффициент Фехнера в онлайн режиме. Также определяется значимость данного коэффициента (см. пример решения).
Инструкция . Укажите количество данных (количество строк), нажмите Далее. Полученное решение сохраняется в файле Word . Также автоматически создается шаблон для проверки решения в Excel .
Расчет коэффициента Фехнера состоит из следующих этапов:
- Определяют средние значения для каждого признака (X и Y).
- Определяют знаки отклонения (-,+) от среднего значения каждого из признаков.
- Если знаки совпадают, присваивают значение А, иначе В.
- Считают количество А и В, вычисляя коэффициент Фехнера по формуле: K ф = (n a - n b)/(n a + n b) где n a - число совпадений знаков отклонений индивидуальных величин от средней; n b - число несовпадений.
Графическое представление коэффициента Фехнера
Пример . При разработке глинистого раствора с пониженной водоотдачей в высокотемпературных условиях проводили параллельное испытание двух рецептур, одна из которых содержала 2% КМЦ и 1% Na2CO3, а другая 2% КМЦ, 1% Na2CO3 и 0,1% бихромата калия. В результате получена следующие значения Х (водоотдача через 30 с).
X1 | 9 | 9 | 11 | 9 | 8 | 11 | 10 | 8 | 10 |
X2 | 10 | 11 | 10 | 12 | 11 | 12 | 12 | 10 | 9 |