Коэффициент корреляции фехнера онлайн. Простейшие показатели тесноты связи (коэффициент Фехнера, коэффициент корреляции рангов, коэффициент ассоциации)

Задача 1. По условным данным таблицы о стоимости основных фондов х и валовом выпуске продукции у (в порядке возрастания стоимости основных фондов) выявить наличие и характер корреляционной связи между признаками x и y .
Таблица. Стоимость основных фондов и валовой выпуск по 10 однотипным предприятиям

Предприятия
i

Основные производственные
фонды, млн. руб.
xi

Валовой выпуск
продукции, млн. руб.
yi

1
2
3
4
5
6
7
8
9
10

12
16
25
38
43
55
60
80
91
100

28
40
38
65
80
101
95
125
183
245






+
+
+
+
+






+

+
+
+

Решение. Для выявления наличия и характера корреляционной связи между двумя признаками в статистике используется ряд методов .
1. Графический метод , когда корреляционную зависимость для наглядности можно изобразить графически. Для этого, имея n взаимосвязанных пар значений x и y и пользуясь прямоугольной системой координат, каждую такую пару изображают в виде точки на плоскости с координатами x и y . Соединяя последовательно нанесенные точки, получают ломаную линию, именуемую эмпирической линией регрессии (см. рисунок справа). Анализируя эту линию, визуально можно определить характер зависимости между признаками x и y . В нашей задаче эта линия похожа на восходящую прямую, что позволяет выдвинуть гипотезу о наличии прямой зависимости между величиной основных фондов и валовым выпуском продукции.
2. Рассмотрение параллельных данных (значений x и y в каждой из n единиц). Единицы наблюдения располагают по возрастанию значений факторного признака х и затем сравнивают с ним (визуально) поведение результативного признака у . В нашей задаче в большинстве случаев по мере увеличения значений x увеличиваются и значения y (за несколькими исключениями – 2 и 3, 6 и 7 предприятия), поэтому, можно говорить о прямой связи между х и у (этот вывод подтверждает и эмпирическая линия регрессии). Теперь необходимо ее измерить, для чего рассчитывают несколько коэффициентов.
3. Коэффициент корреляции знаков (Фехнера ) – простейший показатель тесноты связи, основанный на сравнении поведения отклонений индивидуальных значений каждого признака (x и y ) от своей средней величины. При этом во внимание принимаются не величины отклонений () и (), а их знаки («+» или «–»). Определив знаки отклонений от средней величины в каждом ряду, рассматривают все пары знаков и подсчитывают число их совпадений (С ) и несовпадений (Н ). Тогда коэффициент Фехнера рассчитывается как отношение разности чисел пар совпадений и несовпадений знаков к их сумме, т.е. к общему числу наблюдаемых единиц:
.
Очевидно, что если знаки всех отклонений по каждому признаку совпадут, то КФ= 1, что характеризует наличие прямой связи. Если все знаки не совпадут, то КФ=– 1(обратная связь). Если же å С= å Н , то КФ= 0. Итак, как и любой показатель тесноты связи, коэффициент Фехнера может принимать значения от 0 до 1. Однако, если КФ= 1, то это ни в коей мере нельзя воспринимать как свидетельство функциональной зависимости между х и у .
В нашей задаче ; .
В двух последних столбцах таблицы приведены знаки отклонений каждого х и у от своей средней величины.

Число совпадений знаков – 9, а несовпадений – 1. Отсюда КФ==0,8 .

Обычно такое значение показателя тесноты связи характеризует сильную зависимость, однако, следует иметь в виду, что поскольку КФ зависит только от знаков и не учитывает величину самих отклонений х и у от их средних величин, то он практически характеризует не столько тесноту связи, сколько ее наличие и направление.
4. Линейный коэффициент корреляции применяется в случае линейной зависимости между двумя количественными признаками x и y . В отличие от КФ в линейном коэффициенте корреляции учитываются не только знаки отклонений от средних величин, но и значения самих отклонений, выраженные для сопоставимости в единицах среднего квадратического отклонения t :
и .
Линейный коэффициент корреляции r представляет собой среднюю величину из произведений нормированных отклонений для x и у :
, или .
Числитель формулы, деленный на n , т.е. , представляет собой среднее произведение отклонений значений двух признаков от их средних значений, именуемое ковариацией . Поэтому можно сказать, что линейный коэффициент корреляции представляет собой частное от деления ковариации между х и у на произведение их средних квадратических отклонений. Путем несложных математических преобразований можно получить и другие модификации формулы линейного коэффициента корреляции, например:
.
Линейный коэффициент корреляции может принимать значения от –1 до +1, причем знак определяется в ходе решения.

Например, если , то r по формуле будет положительным, что характеризует прямую зависимость между х и у , в противном случае (r < 0) – обратную связь.

Если , то r = 0, что означает отсутствие линейной зависимости между х и у , а при r = 1 – функциональная зависимость между х и у . Следовательно, всякое промежуточное значение r от 0 до 1 характеризует степень приближения корреляционной связи между х и у к функциональной. Таким образом, коэффициент корреляции при линейной зависимости служит как мерой тесноты связи, так и показателем, характеризующим степень приближения корреляционной зависимости между х и у к линейной. Поэтому близость значения r к 0 в одних случаях может означать отсутствие связи между х и у , а в других свидетельствовать о том, что зависимость не линейная.
В нашей задаче для расчета r построим вспомогательную таблицу.
Таблица. Вспомогательные расчеты линейного коэффициента корреляции

i

В нашей задаче: = =29,299; ==65,436.

Тогда r = 9,516166/10 = 0,9516.

Аналогично: r = 1824,4/(29,299*65,436) = 0,9516

или r = (7024,4 – 52*100) / (29,299*65,436) = 0,9516, то есть связь между величиной основных фондов и валовым выпуском продукции очень близка к функциональной.

Проверка коэффициента корреляции на значимость (существенность). Интерпретируя значение коэффициента корреляции, следует иметь в виду, что он рассчитан для ограниченного числа наблюдений и подвержен случайным колебаниям, как и сами значения x и y , на основе которых он рассчитан. Другими словами, как любой выборочный показатель, он содержит случайную ошибку и не всегда однозначно отражает действительно реальную связь между изучаемыми показателями. Для того, чтобы оценить существенность (значимость) самого r и, соответственно, реальность измеряемой связи между х и у , необходимо рассчитать среднюю квадратическую ошибку коэффициента корреляции σ r . Оценка существенности (значимости) r основана на сопоставлении значения r с его средней квадратической ошибкой: .
Существуют некоторые особенности расчета σ r в зависимости от числа наблюдений (объема выборки) – n .

  • Если число наблюдений достаточно велико (n >30), то σ r рассчитывается по формуле (86):

.
Обычно, если >3, то r считается значимым (существенным), а связь – реальной.

Задавшись определенной вероятностью, можно определить доверительные пределы (границы)

r = (), где t – коэффициент доверия, рассчитываемый по интегралу Лапласа (см. таблицу 4).

  • Если число наблюдений небольшое (n <30), то σ r рассчитывается по формуле:

,
а значимость r проверяется на основе t - критерия Стьюдента, для чего определяется расчетное значение критерия по формуле (88) и сопоставляется c t ТАБЛ .
.
Табличное значение t ТАБЛ находится по таблице распределения t -критерия Стьюдента (см. приложение 2) при уровне значимости α=1-β и числе степеней свободы ν= n –2 . Если t РАСЧ > t ТАБЛ ,то r считается значимым, а связь между х и у – реальной. В противном случае (t РАСЧ < t ТАБЛ ) считается, что связь между х и у отсутствует, и значение r , отличное от нуля, получено случайно.
В нашей задаче число наблюдений небольшое, значит, оценивать существенность (значимость) линейного коэффициента корреляции будем по формулам:

= 0,3073/2,8284 = 0,1086; = 0,9516/0,1086 = 8,7591.

При вероятности 95% t табл = 2,306, а при вероятности 99% t табл = 3,355, значит, t РАСЧ > t ТАБЛ , что дает возможность считать линейный коэффициент корреляции r = 0,9516 значимым.

5. Подбор уравнения регрессии представляет собой математическое описание изменения взаимно коррелируемых величин по эмпирическим (фактическим) данным. Уравнение регрессии должно определить, каким будет среднее значение результативного признака у при том или ином значении факторного признака х, если остальные факторы, влияющие на у и не связанные с х, не учитывать, т.е. абстрагироваться от них. Другими словами, уравнение регрессии можно рассматривать как вероятностную гипотетическую функциональную связь величины результативного признака у со значениями факторного признака х.
Уравнение регрессии можно также назвать теоретической линией регрессии. Рассчитанные по уравнению регрессии значения результативного признака называются теоретическими .Они обычно обозначаются (читается: «игрек, выравненный по х») и рассматриваются как функция от х , т.е. = f (x ). (Иногда для простоты записи вместо пишут . )
Найти в каждом конкретном случае тип функции, с помощью которой можно наиболее адекватно отразить ту или иную зависимость между признаками х и у, - одна из основных задач регрессионного анализа. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.
Для аналитической связи между х и у могут использоваться следующие простые виды уравнений:
– прямая линия; – парабола;
– гипербола; – показательная функция;
логарифмическая функция и др.
Обычно зависимость, выражаемую уравнением прямой, называют линейной (или прямолинейной), а все остальные - криволинейными зависимостями .
Выбрав тип функции, по эмпирическим данным определяют параметры уравнения. При этом отыскиваемые параметры должны быть такими, при которых рассчитанные по уравнению теоретические значения результативного признака были бы максимально близки к эмпирическим данным.
Существует несколько методов нахождения параметров уравнения регрессии. Наиболее часто используется метод наименьших квадратов (МНК). Его суть заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е.
.
Поставив данное условие, легко определить, при каких значениях , и т.д. для каждой аналитической кривой эта сумма квадратов отклонений будет минимальной. Данный метод уже использовался нами в методических указаниях к теме 4 «Ряды динамики», поэтому, воспользуемся формулой (57) для нахождения параметров теоретической линии регрессии в нашей задаче, заменив параметр t на x .

Исходные данные и все расчеты необходимых сумм представим в таблице:

Таблица. Вспомогательные расчеты для решения задачи

i

5; x и y и измерить тесноту этой связи: коэффициент Фехнера и линейный коэффициент корреляции.
Наряду с ними существует универсальный показатель – корреляционное отношение (или коэффициент корреляции по Пирсону ), применимое ко всем случаям корреляционной зависимости независимо от формы этой связи. Следует различать эмпирическое и теоретическое корреляционные отношения. Эмпирическое корреляционное отношение рассчитывается на основе правила сложения дисперсий как корень квадратный из отношения межгрупповой дисперсии к общей дисперсии, т.е.
.
Теоретическое корреляционное отношение определяется на основе выравненных (теоретических) значений результативного признака , рассчитанных по уравнению регрессии. представляет собой относительную величину, получаемую в результате сравнения среднего квадратического отклонения в ряду теоретических значений результативного признака со средним квадратическим отклонением в ряду эмпирических значений. Если обозначить дисперсию эмпирического ряда игреков через <0,6 – о средней, при 0,6<<0,8 – о зависимости выше средней, при >0,8 – о большой, сильной зависимости. Корреляционное отношение применимо как для парной, так и для множественной корреляции независимо от формы связи. При линейной зависимости .
В нашей задаче расчет необходимых сумм для использования в формуле (93) приведен в последних двух столбцах таблицы 12. Тогда теоретический коэффициент детерминации по формуле (93) равен:2теор = 38762,125 / 42818 = 0,9053, то есть дисперсия, выражающая влияние вариации фактора x на вариацию y , составляет 90,53%.
Теоретическое корреляционное отношение по формуле (94) равно: теор == 0,9515, что совпадает со значением линейного коэффициента корреляции и, следовательно, можно говорить о большой, сильной зависимости между коррелируемыми величинами.

Коэффициент корреляции, предложенный во II–й половине XIX века Г. Т. Фехнером, является наиболее простой мерой связи между двумя переменными. Он основан на сопоставлении двух психологических признаков x i и y i , измеренных на одной и той же выборке, по сопоставлению знаков отклонений индивидуальных значений от среднего: и
. Вывод о корреляции между двумя переменными делается на основании подсчета числа совпадений и несовпадений этих знаков.

Пример

Пусть x i и y i – два признака, измеренные на одной и той же выборке испытуемых. Для вычисления коэффициента Фехнера необходимо вычислить средние значения для каждого признака, а также для каждого значения переменной – знак отклонения от среднего (табл. 8.1):

Таблица 8.1

x i

y i

Обозначение

В таблице: а – совпадения знаков, b – несовпадения знаков; n a – число совпадений, n b – число несовпадений (в данном случае n a = 4, n b = 6).

Коэффициент корреляции Фехнера вычисляется по формуле:

(8.1)

В рассматриваемом случае:

Вывод

Между исследуемыми переменными существует слабая отрицательная связь.

Необходимо отметить, что коэффициент корреляции Фехнера не является достаточно строгим критерием, поэтому его можно использовать лишь на начальном этапе обработки данных и для формулировки предварительных выводов.

8. 4. Коэффициент корреляции Пирсона

Исходный принцип коэффициента корреляции Пирсона – использование произведения моментов (отклонений значения переменной от среднего значения):

Если сумма произведений моментов велика и положительна, то х и у связаны прямой зависимостью; если сумма велика и отрицательна, то х и у сильно связаны обратной зависимостью; наконец, в случае отсутствия связи между x и у сумма произведений моментов близка к нулю.

Для того чтобы статистика не зависела от объема выборки, берется не сумма произведений моментов, а среднее значение. Однако деление производится не на объем выборки, а на число степеней свободы n - 1.

Величина
является мерой связи междух и у и называется ковариацией х и у .

Во многих задачах естественных и технических наук ковариация является вполне удовлетворительной мерой связи. Ее недостатком является то, что диапазон ее значений не фиксирован, т. е. она может варьировать в неопределенных пределах.

Для того чтобы стандартизировать меру связи, необходимо избавить ковариацию от влияния стандартных отклонений. Для этого надо разделить S xy на s x и s y:

(8.3)

где r xy - коэффициент корреляции, или произведение моментов Пирсона.

Общая формула для вычисления коэффициента корреляции выглядит следующим образом:

(некоторые преобразования)

(8.4)

Влияние преобразования данных на r xy:

1. Линейные преобразования x и y типа bx + a и dy + c не изменят величину корреляции между x и y .

2. Линейные преобразования x и y при b < 0, d > 0, а также при b > 0 и d < 0 изменяют знак коэффициента корреляции, не меняя его величины.

Достоверность (или, иначе, статистическая значимость) коэффициента корреляции Пирсона может быть определена разными способами:

По таблицам критических значений коэффициентов корреляции Пирсона и Спирмена (см. Приложение, табл. XIII). Если полученное в расчетах значение r xy превышает критическое (табличное) значение для данной выборки, коэффициент Пирсона считается статистически значимым. Число степеней свободы в данном случае соответствует n – 2, где n – число пар сравниваемых значений (объем выборки).

По таблице XV Приложений, которая озаглавлена «Количество пар значений, необходимое для статистической значимости коэффициента корреляции». В данном случае необходимо ориентироваться на коэффициент корреляции, полученный в вычислениях. Он считается статистически значимым, если объем выборки равен или превышает табличное число пар значений для данного коэффициента.

По коэффициенту Стьюдента, который вычисляется как отношение коэффициента корреляции к его ошибке:

(8.5)

Ошибка коэффициента корреляции вычисляется по следующей формуле:

где m r - ошибка коэффициента корреляции, r - коэффициент корреляции; n - число сравниваемых пар.

Рассмотрим порядок вычислений и определение статистической значимости коэффициента корреляции Пирсона на примере решения следующей задачи.

Условие задачи

22 старшеклассника были протестированы по двум тестам: УСК (уровень субъективного контроля) и МкУ (мотивация к успеху). Получены следующие результаты (табл. 8.2):

Таблица 8.2

УСК (x i )

МкУ (y i )

УСК (x i )

МкУ (y i )

Задание

Проверить гипотезу о том, что для людей с высоким уровнем интернальности (балл УСК) характерен высокий уровень мотивации к успеху.

Решение

1. Используем коэффициент корреляции Пирсона в следующей модификации (см. формулу 8.4):

Для удобства обработки данных на микрокалькуляторе (в случае отсутствия необходимой компьютерной программы) рекомендуется оформление промежуточной рабочей таблицы следующего вида (табл. 8.3):

Таблица 8.3

x i y i

x 1 y 1

x 2 y 2

x 3 y 3

x n y n

Σx i y i

2. Проводим вычисления и подставляем значения в формулу:

3. Определяем статистическую значимость коэффициента корреляции Пирсона тремя способами:

1-й способ:

В табл. XIII Приложений находим критические значения коэффициента для 1-го и 2-го уровней значимости: r кр. = 0,42; 0,54 (ν = n – 2 = 20).

Делаем вывод о том, r xy > r кр . , т. е. корреляция является статистически значимой для обоих уровней.

2-й способ:

Воспользуемся табл. XV, в которой определяем число пар значений (число испытуемых), достаточное для статистической значимости коэффициента корреляции Пирсона, равного 0,58: для 1-го, 2-го и 3-го уровней значимости оно составляет, соответственно, 12, 18 и 28.

Отсюда мы делаем вывод о том, что коэффициент корреляции является значимым для 1-го и 2-го уровня, но «не дотягивает» до 3-го уровня значимости.

3-й способ:

Вычисляем ошибку коэффициента корреляции и коэффициент Стьюдента как отношение коэффициента Пирсона к ошибке:

В табл. X находим стандартные значения коэффициента Стьюдента для 1-го, 2-го и 3-го уровней значимости при числе степеней свободы ν = n – 2 = 20: t кр. = 2,09; 2,85; 3,85.

Общий вывод

Корреляция между показателями тестов УСК и МкУ является статистически значимой для 1-го и 2-го уровней значимости.

Примечание:

При интерпретации коэффициента корреляции Пирсона необходимо учитывать следующие моменты:

    Коэффициент Пирсона может использоваться для различных шкал (шкала отношений, интервальная или порядковая) за исключением дихотомической шкалы.

    Корреляционная связь далеко не всегда означает связь причинно-следственную. Другими словами, если мы нашли, предположим, положительную корреляцию между ростом и весом у группы испытуемых, то это вовсе не означает, что рост зависит от веса или наоборот (оба этих признака зависят от третьей (внешней) переменной, каковая в данном случае связана с генетическими конституциональными особенностями человека).

    r xu » 0 может наблюдаться не только при отсутствии связи между x и y , но и в случае сильной нелинейной связи (рис. 8.2 а). В данном случае отрицательная и положительная корреляции уравновешиваются и в результате создается иллюзия отсутствия связи.

    r xy может быть достаточно мал, если сильная связь между х и у наблюдается в более узком диапазоне значений, чем исследуемый (рис. 8.2 б).

    Объединение выборок с различными средними значениями может создавать иллюзию достаточно высокой корреляции (рис. 8.2 в).

y i y i y i

+ + . .

x i x i x i

Рис. 8.2. Возможные источники ошибок при интерпретации величины коэффициента корреляции (объяснения в тексте (пункты 3 – 5 примечания))

Для устранения недостатка ковариации был введён линейный коэффициент корреляции (или коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон (англ.)русск. в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле :

где , - среднее значение выборок.

Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы .

    Коэффициент ранговой корреляции Кендалла

Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:

,

большим значением рангов Y.

Суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)

  1. Коэффициент ранговой корреляции Спирмена

Степень зависимости двух случайных величин (признаков) X и Y может характеризоваться на основе анализа получаемых результатов . Каждому показателю X и Y присваивается ранг. Ранги значений X расположены в естественном порядке i=1, 2, . . ., n. Ранг Y записывается как Ri и соответствует рангу той пары (X, Y), для которой ранг X равен i. На основе полученных рангов Х i и Yi рассчитываются их разности и вычисляется коэффициент корреляции Спирмена:

Значение коэффициента меняется от −1 (последовательности рангов полностью противоположны) до +1 (последовательности рангов полностью совпадают). Нулевое значение показывает, что признаки независимы.

  1. Коэффициент корреляции знаков Фехнера

Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.

C - число пар, у которых знаки отклонений значений от их средних совпадают.

H - число пар, у которых знаки отклонений значений от их средних не совпадают.

Литература: http://ru.wikipedia.org/wiki/%CA%EE%F0%F0%E5%EB%FF%F6%E8%FF

9. вычислите коэффициент корреляции Спирмэна.

Оценка взаимосвязи показателей: X – место занятое в стрельбе из винтовки; Y – количество попаданий в десятку. Все прочие условия примерно одинаковы. Результаты соревнований представлены в Таблице №1

Таблица №1 Расчет рангового коэффициента корреляции Спирмэна.

Пояснение:

шаг 1. Проранжировать (упорядочить и приписать порядковые номера) показатели X и Y. Так как X упорядочен и обозначает соответствующие ранги, перепишем его в столбец 3. показателю Y приписываем ранги следующим образом: значению 10 – ранг 1; 9 – ранг (2+3)/2=2,5; 8 – ранг 4; 7 – ранг 5 и т. д. (столбец 4)

шаг 2. вычислить разность рангов d=Dx-Dy(столбец 5)

шаг 3. вычислить квадрат разности d=(Dx-Dy)2 (столбец 6)

шаг 4. вычислить сумму квадратов разности

Коэффициент Фехнера - это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков. Коэффициент Фехнера наряду с такими коэффициентами, как коэффициент Спирмэна и коэффициент Кэндэла, относится к коэффициентам корреляции знаков .

Назначение сервиса . Данный сервис предназначен для расчета коэффициент Фехнера в онлайн режиме. Также определяется значимость данного коэффициента (см. пример решения).

Инструкция . Укажите количество данных (количество строк), нажмите Далее. Полученное решение сохраняется в файле Word . Также автоматически создается шаблон для проверки решения в Excel .

Количество строк (исходных данных)

Расчет коэффициента Фехнера состоит из следующих этапов:

  1. Определяют средние значения для каждого признака (X и Y).
  2. Определяют знаки отклонения (-,+) от среднего значения каждого из признаков.
  3. Если знаки совпадают, присваивают значение А, иначе В.
  4. Считают количество А и В, вычисляя коэффициент Фехнера по формуле: K ф = (n a - n b)/(n a + n b) где n a - число совпадений знаков отклонений индивидуальных величин от средней; n b - число несовпадений.
Коэффициент Фехнера изменяется в пределах [-1;+1] и применяется для оценки тесноты связи качественных признаков (непараметрические методы).

Графическое представление коэффициента Фехнера

Пример . При разработке глинистого раствора с пониженной водоотдачей в высокотемпературных условиях проводили параллельное испытание двух рецептур, одна из которых содержала 2% КМЦ и 1% Na2CO3, а другая 2% КМЦ, 1% Na2CO3 и 0,1% бихромата калия. В результате получена следующие значения Х (водоотдача через 30 с).

X1 9 9 11 9 8 11 10 8 10
X2 10 11 10 12 11 12 12 10 9
Проверит, различимы ли рассматриваемые растворы по значению водоотдачи.

Поделиться