Регрессионный анализ теория. Простая линейная регрессия

Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

Регрессия бывает:

  • линейной (у = а + bx);
  • параболической (y = a + bx + cx 2);
  • экспоненциальной (y = a * exp(bx));
  • степенной (y = a*x^b);
  • гиперболической (y = b/x + a);
  • логарифмической (y = b * 1n(x) + a);
  • показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

У = а 0 + а 1 х 1 +…+а к х к.

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.



В первую очередь обращаем внимание на R-квадрат и коэффициенты.

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.



Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

  1. В категории «Статистические» выбираем функцию КОРРЕЛ.
  2. Аргумент «Массив 1» - первый диапазон значений – время работы станка: А2:А14.
  3. Аргумент «Массив 2» - второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

Пример:


Теперь стали видны и данные регрессионного анализа.

Лекция 3.

Регрессионный анализ.

1) Числовые характеристики регрессии

2) Линейная регрессия

3) Нелинейная регрессия

4) Множественная регрессия

5) Использование MS EXCEL для выполнения регрессионного анализа

Контрольно-оценочное средство - тестовые задания

1. Числовые характеристики регрессии

Регрессионный анализ — статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения.

Цели регрессионного анализа

  • Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными).
  • Предсказание значения зависимой переменной с помощью независимой(-ых).
  • Определение вклада отдельных независимых переменных в вариацию зависимой.

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Для проведения регрессионного анализа первоначально необходимо познакомиться с базовыми понятиями статистики и теории вероятности.

Основные числовые характеристики дискретных и непрерывных случайных величин: математическое ожидание, дисперсия и среднее квадратическое отклонение.

Случайные величине делят на две разновидности:

  • · дискретные, которые могут принимать только конкретные, заранее оговоренные значения (например, - значения чисел на верхней грани брошенной игральной кости или порядковые значения текущего месяца);
  • · непрерывные (чаще всего - значения некоторых физических величин: веса, расстояния, температуры и т.п.), которые по законам природы могут принимать любые значения, хотя бы и в некотором интервале.

Закон распределения случайной величины - это соответствие между возможными значениями дискретной случайной величины и ее вероятностями, обычно записывается в таблицу:

Статистическое определение вероятности выражается через относительную частоту случайного события, то есть находится как отношение количества случайных величин к общему числу случайных величин.

Математическим ожиданием дискретной случайной величины X называется сумма произведений значений величины X на вероятности этих значений. Математическое ожидание обозначают или M (X ) .

n

= M (X ) = x 1 p 1 + x 2 p 2 +… + x n p n = S x i p i

i =1

Рассеяние случайной величины относительно её математического ожидания определяется с помощью числовой характеристики, называемой дисперсией. Проще говоря, дисперсия - это разброс случайной величины относительно среднего значения. Для понятия сущности дисперсии рассмотрим пример. Средняя заработная плата по стране составляет около 25 тысяч рублей. Откуда берется эта цифра? Скорее всего, складываются все зарплаты и делятся на количество работников. В данном случае очень большая дисперсия (минимальная зарплата около 4 тыс. руб., а максимальная - около 100 тыс. руб.). Если бы зарплата у всех была одинаковой, то дисперсия была бы равна нулю, и разброса бы не было.

Дисперсией дискретной случайной величины X называют математическое ожидание квадрата разности случайной величины и её математического ожидания:

D = M [ ((X - M (X)) 2 ]

Используя определение математического ожидания для вычисления дисперсии, получаем формулу:

D = S (x i - M (X)) 2 · p i

Дисперсия имеет размерность квадрата случайной величины. В тех случаях, когда нужно иметь числовую характеристику рассеяния возможных значений в той же размерности, что и сама случайная величина, используют среднее квадратичное отклонение.

Средним квадратичным отклонением случайной величины называют корень квадратный из её дисперсии.

Среднее квадратичное отклонение есть мера рассеяния значений случайной величины около ее математического ожидания.

Пример.

Закон распределения случайной величины Х задан следующей таблицей:

Найти её математическое ожидание, дисперсию и среднее квадратичное отклонение.

Используем приведенные выше формулы:

М (Х) = 1 · 0,1 + 2 · 0,4 + 4 · 0,4 + 5 · 0,1 = 3

D = (1-3) 2 · 0,1 + (2 - 3) 2 · 0,4 + (4 - 3) 2 · 0,4 + (5 - 3) 2 · 0,1 = 1,6

Пример.

В денежной лотерее разыгрывается 1 выигрыш в 1000 рублей, 10 выигрышей по 100 рублей и 100 выигрышей по 1 рублю при общем числе билетов 10000. Составьте закон распределения случайного выигрыша Х для владельца одного лотерейного билета и определите математическое ожидание, дисперсию и среднее квадратичное отклонение случайной величины.

X 1 = 1000, Х 2 = 100, Х 3 = 1, Х 4 = 0,

Р 1 = 1/10000 = 0,0001, Р 2 = 10/10000 = 0,001, Р 3 = 100/10000 = 0,01, Р 4 = 1 - (Р 1 + Р 2 + Р 3) = 0,9889.

Результаты поместим в таблицу:

Математическое ожидание - сумма парных произведений значения случайной величины на их вероятность. Для данной задачи его целесообразно вычислить по формуле

1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 рубля.

Получили настоящую «справедливую» цену билета.

D = S (x i - M (X)) 2 · p i = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Функция распределения непрерывных случайных величин

Величину, которая в результате испытания примет одно возможное значение (при этом заранее неизвестно какое), называется случайной величиной. Как говорилось выше, случайные величины бывают дискретные (прерывные) и непрерывные.

Дискретной называют случайную величину, принимающую отдельные друг от друга возможные значения с определенными вероятностями, которые можно пронумеровать.

Непрерывной называют случайную величину, которая может принимать все значения из некоторого конечного или бесконечного интервала.

До этого момента мы ограничивались только одной “разновидностью” случайных величин - дискретных, т.е. принимающих конечные значения.

Но теория и практика статистики требуют использовать понятие непрерывной случайной величины - допускающей любые числовые значения, из какого - либо интервала.

Закон распределения непрерывной случайной величины удобно задавать с помощью так называемой функции плотности вероятности. f (х). Вероятность Р (a < X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

Р (a < X < b) = ∫ f (x ) dx

График функции f (х) называется кривой распределения. Геометрически вероятность попадания случайной величины в промежуток (a; b), равна площади соответствующей криволинейной трапеции, ограниченной кривой распределения, осью Ох и прямыми х = а, х = b.

P(a£X

Если от сложного события вычесть конечное либо счетное множество, вероятность наступления нового события останется неизменной.

Функция f(x) - числовая скалярная функция действительного аргумента x называется плотностью вероятности, и существует в точке x, если в этой точке существует предел:

Свойства плотности вероятности:

  1. Плотность вероятности является неотрицательной функцией, т. е. f(x) ≥ 0

(если все значения случайной величины Х заключены в промежутке (a;b), то последнее

равенство можно записать в виде ∫ f (x) dx = 1).

Рассмотрим теперь функцию F(х) = Р (Х < х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

непрерывной случайной величины Х, то F (х) = ∫ f(x) dx = 1).

Из последнего равенства следует, что f (x) = F" (x)

Иногда функцию f(x) называют дифференциальной функцией распределения вероятности, а функцию F(x) - интегральной функцией распределения вероятности.

Отметим важнейшие свойства функции распределения вероятности:

  1. F (х) - неубывающая функция.
  2. F (- ∞) = 0.
  3. F (+ ∞) = 1.

Понятие функции распределения является центральным в теории вероятностей. Используя это понятие, можно дать другое определение непрерывной случайной величины. Случайная величина называется непрерывной, если ее интегральная функция распределения F(х) непрерывна.

Числовые характеристики непрерывных случайных величин

Математическое ожидание, дисперсия и другие параметры любых случайных величин практически всегда вычисляются по формулам, вытекающим из закона распределения.

Для непрерывной случайной величины математическое ожидание вычисляется по формуле:

М (Х) = ∫ x · f(x ) dx

Дисперсия:

D (X) = ∫ (x - М (Х)) 2 f (x ) dx или D (X) = ∫ x 2 f(x ) dx - (М (Х)) 2

2. Линейная регрессия

Пусть составляющие Х и Y двумерной случайной величины (Х, Y) зависимы. Будем считать, что одну из них можно приближенно представить как линейную функцию другой, например

Y ≈ g(Х) = α + βХ, и определим параметры α и β с помощью метода наименьших квадратов.

Определение. Функция g(Х) = α + βХ называется наилучшим приближением Y в смысле метода наименьших квадратов, если математическое ожидание М(Y - g(Х)) 2 принимает наименьшее возможное значение; функцию g(Х) называют среднеквадратической регрессией Y на Х.

Теорема Линейная средняя квадратическая регрессия Y на Х имеет вид:

где - коэффициент корреляции Х иY.

Коэффициенты уравнения.

Можно проверить, что при этих значениях функция функция F(α, β)

F (α, β ) = M (Y - α - βX )² имеет минимум, что доказывает утверждение теоремы.

Определение. Коэффициент называется коэффициентом регрессии Y на Х , а прямая - - прямой среднеквадратической регрессии Y на Х .

Подставив координаты стационарной точки в равенство, можно найти минимальное значение функции F(α, β), равное Эта величина называется остаточной дисперсией Y относительно Х и характеризует величину ошибки, допускаемой при замене Y на

g(Х) = α+βХ. При остаточная дисперсия равна 0, то есть равенство является не приближенным, а точным. Следовательно, при Y и Х связаны линейной функциональной зависимостью. Аналогично можно получить прямую среднеквадратической регрессии Х на Y:

и остаточную дисперсию Х относительно Y. При обе прямые регрессии совпадают. Сопоставив уравнения регрессии У на Х и Х на У и решив систему из уравнений, можно найти точку пересечения прямых регрессии - точку с координатами (т х, т у), называемую центром совместного распределения величин Х и Y.

Алгоритм составления уравнений регрессии рассмотрим из учебника В. Е. Гмурмана «Теория вероятности и математическая статистика» стр. 256.

1) Составить расчетную таблицу, в которой будут записаны номера элементов выборки, варианты выборки, их квадраты и произведение.

2) Вычислить сумму по всем столбцам, кроме номера.

3) Вычислить средние значения для каждой величины, дисперсии и средне квадратические отклонения.

5) Проверить гипотезу о существовании связи между Х и У.

6) Составить уравнения обеих линий регрессии и изобразить графики этих уравнений.

Угловой коэффициент прямой линии регрессии У на Х - это выборочный коэффициент регрессии

Коэффициент b=

Получим искомое уравнение линии регрессии У на Х:

У = 0,202 Х + 1,024

Аналогично уравнение регрессии Х на У:

Угловой коэффициент прямой линии регрессии У на Х - это выборочный коэффициент регрессии pxy:

Коэффициент b=

Х = 4,119У - 3,714

3. Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Различают два класса нелинейных регрессий:

1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, например:

Полиномы разных степеней

Равносторонняя гипербола - ;

Полулогарифмическая функция - .

2. Регрессии, нелинейные по оцениваемым параметрам, например:

Степенная - ;

Показательная - ;

Экспоненциальная - .

Регрессии нелинейные по включенным переменным приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью метода наименьших квадратов. Рассмотрим некоторые функции.

Парабола второй степени приводится к линейному виду с помощью замены: . В результате приходим к двухфакторному уравнению, оценка параметров которого при помощи Метода наименьших квадратов приводит к системе уравнений:

Парабола второй степени обычно применяется в случаях, когда для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую.

Равносторонняя гипербола может быть использована для характеристики связи удельных расходов сырья, материалов, топлива от объема выпускаемой продукции, времени обращения товаров от величины товарооборота. Классическим ее примером является кривая Филлипса, характеризующая нелинейное соотношение между нормой безработицы x и процентом прироста заработной платы y .

Гипербола приводится к линейному уравнению простой заменой: . Также можно использовать Метод наименьших квадратов для составления системы линейных уравнений.

Аналогичным образом приводятся к линейному виду зависимости: , и другие.

Равносторонняя гипербола и полулогарифмическая кривая используют для описания кривой Энгеля (математическое описание взаимосвязи доли расходов на товары длительного пользования и общих сумм расходов (или доходов)). Уравнения, в которых входят, применяются в исследованиях урожайности, трудоемкости сельскохозяйственного производства.

4. Множественная регрессия

Множественная регрессия - уравнение связи с несколькими независимыми переменными:

где - зависимая переменная (результативный признак);

Независимые переменные (факторы).

Для построения уравнения множественной регрессии чаще используются следующие функции:

линейная -

степенная -

экспонента -

гипербола - .

Можно использовать и другие функции, приводимые к линейному виду.

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:

Для ее решения может быть применен метод определителей:

где - определитель системы;

Частные определители; которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Другой вид уравнения множественной регрессии - уравнение регрессии в стандартизированном масштабе, к уравнению множественной регрессии в стандартизированном масштабе применим МНК.

5. Использование MS EXCEL для выполнения регрессионного анализа

Регрессионный анализ устанавливает формы зависимости между случайной величиной Y (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. В ходе регрессионного анализа на основании выборочных данных находят оценки этих параметров, определяются статистические ошибки оценок или границы доверительных интервалов и проверяется соответствие (адекватность) принятой математической модели экспериментальным данным.

В линейном регрессионном анализе связь между случайными величинами предполагается линейной. В самом простом случае в парной линейной регрессионной модели имеются две переменные Х и Y. И требуется по n парам наблюдений (X1, Y1), (X2, Y2), ..., (Xn, Yn) построить (подобрать) прямую линию, называемую линией регрессии, которая «наилучшим образом» приближает наблюдаемые значения. Уравнение этой линии y=аx+b является регрессионным уравнением. С помощью регрессионного уравнения можно предсказать ожидаемое значение зависимой величины y, соответствующее заданному значению независимой переменной x. В случае, когда рассматривается зависимость между одной зависимой переменной Y и несколькими независимыми X1, X2, ..., Xm, говорят о множественной линейной регрессии.

В этом случае регрессионное уравнение имеет вид

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

где a0, a1, a2, …, am - требующие определения коэффициенты регрессии.

Коэффициенты уравнения регрессии определяются при помощи метода наименьших квадратов, добиваясь минимально возможной суммы квадратов расхождений реальных значений переменной Y и вычисленных по регрессионному уравнению. Таким образом, например, уравнение линейной регрессии может быть построено даже в том случае, когда линейная корреляционная связь отсутствует.

Мерой эффективности регрессионной модели является коэффициент детерминации R2 (R-квадрат). Коэффициент детерминации может принимать значения между 0 и 1 определяет, с какой степенью точности полученное регрессионное уравнение описывает (аппроксимирует) исходные данные. Исследуется также значимость регрессионной модели с помощью F-критерия (Фишера) и достоверность отличия коэффициентов a0, a1, a2, …, am от нуля проверяется с помощью критерия Стьюдента.

В Excel экспериментальные данные аппроксимируются линейным уравнением до 16 порядка:

y = a0+a1x1+a2x2+…+a16x16

Для получения коэффициентов линейной регрессии может быть использована процедура «Регрессия» из пакета анализа. Также полную информацию об уравнении линейной регрессии дает функция ЛИНЕЙН. Кроме того, могут быть использованы функции НАКЛОН и ОТРЕЗОК для получения параметров регрессионного уравнения и функция ТЕНДЕНЦИЯ и ПРЕДСКАЗ для получения предсказанных значений Y в требуемых точках (для парной регрессии).

Рассмотрим подробно применение функции ЛИНЕЙН (известные_y, [известные_x], [константа], [статистика]): известные_у - диапазон известных значений зависимого параметра Y. В парном регрессионном анализе может иметь любую форму; в множественном должен быть строкой либо столбцом; известные_х - диапазон известных значений одного или нескольких независимых параметров. Должен иметь ту же форму, что и диапазон Y (для нескольких параметров - соответственно несколько столбцов или строк); константа - логический аргумент. Если исходя из практического смысла задачи регрессионного анализа необходимо, чтобы линия регрессии проходила через начало координат, то есть свободный коэффициент был равен 0, значение этого аргумента следует положить равным 0 (или «ложь»). Если значение положено 1 (или «истина») или опущено, то свободный коэффициент вычисляется обычным образом; статистика - логический аргумент. Если значение положено 1 (или «истина»), то дополнительно возвращается регрессионная статистика (см таблицу), используемая для оценки эффективности и значимости модели. В общем случае для парной регрессии y=аx+b результат применения функции ЛИНЕЙН имеет вид:

Таблица. Выводной диапазон функции ЛИНЕЙН для парного регрессионного анализа

В случае множественного регрессионного анализа для уравнения y=a0+a1x1+a2x2+…+amxm в первой строке выводятся коэффициенты am,…,a1,а0, во второй - стандартные ошибки для этих коэффициентов. В 3-5 строках за исключением первых двух столбцов, заполненных регрессионной статистикой, будет получено значение #Н/Д.

Вводить функцию ЛИНЕЙН следует как формулу массива, выделив вначале массив нужного размера для результата (m+1 столбец и 5 строк, если требуется регрессионная статистика) и завершив ввод формулы нажатием CTRL+SHIFT+ENTER.

Результат для нашего примера:

Кроме этого в программе имеется встроенная функция - Анализ данных на вкладке Данные.

С помощью нее можно также выполнять регрессионный анализ:

На слайде - результат регрессионного анализа, выполненного с помощью Анализа данных.

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

R-квадрат

Нормированный R-квадрат

Стандартная ошибка

Наблюдения

Дисперсионный анализ

Значимость F

Регрессия

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

Переменная X 1

Уравнения регрессии, которые мы смотрели ранее также построены в MS Excel. Для их выполнения сначала строится Точечная диаграмма, затем через контекстное меню выбираем - Добавить линию тренда. В новом окне ставим галочки - Показывать уравнение на диаграмме и поместить на диаграмму величину достоверности апроксимации (R^2).

Литература:

  1. Теория вероятностей и математическая статистика. Гмурман В. Е. Учебное пособие для вузов. - Изд. 10-е, стер. - М.: Высш. шк., 2010. - 479с.
  2. Высшая математика в упражнениях и задачах. Учебное пособие для вузов / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 ч. - Изд. 6-е, стер. - М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и образование» , 2007. - 416 с.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F - некоторые сведения о регрессионном анализе
Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.

Парная регрессия - уравнение связи двух переменных у и х: , где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:

Регрессии, нелинейные по оцениваемым параметрам: Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, Используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии :

и индекс корреляции - для нелинейной регрессии:

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений - не более 8-10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
,
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:

Коэффициент детерминации - квадрат коэффициента или индекса корреляции.

F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t табл < t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
, .
Формулы для расчета доверительных интервалов имеют следующий вид:
; ;
; ;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
,
где
и строится доверительный интервал прогноза:
; ;
где .

Пример решения

Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.
Таблица 1.
Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации и F-критерий Фишера.

Решение (Вариант №1)

Для расчета параметров a и b линейной регрессии (расчет можно проводить с помощью калькулятора).
решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ср. знач. (Итого/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Уравнение регрессии: у = 76,88 - 0,35х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:

Связь умеренная, обратная.
Определим коэффициент детерминации:

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации :

В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:

поскольку 1< F < ¥ , следует рассмотреть F -1 .
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:


где Y=lg(y), X=lg(x), C=lg(a).

Для расчетов используем данные табл. 1.3.

Таблица 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Среднее значение 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Рассчитаем С иb:


Получим линейное уравнение:.
Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации

Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.

. Построению уравнения показательной кривой

предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

Для расчетов используем данные таблицы.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Итого 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значения параметров регрессии A и В составили:


Получено линейное уравнение: . Произведем потенцирование полученного уравнения и запишем его в обычной форме:

Тесноту связи оценим через индекс корреляции :

В предыдущих заметках предметом анализа часто становилась отдельная числовая переменная, например, доходность взаимных фондов, время загрузки Web-страницы или объем потребления безалкогольных напитков. В настоящей и следующих заметках мы рассмотрим методы предсказания значений числовой переменной в зависимости от значений одной или нескольких других числовых переменных.

Материал будет проиллюстрирован сквозным примером. Прогнозирование объема продаж в магазине одежды. Сеть магазинов уцененной одежды Sunflowers на протяжении 25 лет постоянно расширялась. Однако в настоящее время у компании нет систематического подхода к выбору новых торговых точек. Место, в котором компания собирается открыть новый магазин, определяется на основе субъективных соображений. Критериями выбора являются выгодные условия аренды или представления менеджера об идеальном местоположении магазина. Представьте, что вы - руководитель отдела специальных проектов и планирования. Вам поручили разработать стратегический план открытия новых магазинов. Этот план должен содержать прогноз годового объема продаж во вновь открываемых магазинах. Вы полагаете, что торговая площадь непосредственно связана с объемом выручки, и хотите учесть этот факт в процессе принятия решения. Как разработать статистическую модель, позволяющую прогнозировать годовой объем продаж на основе размера нового магазина?

Как правило, для предсказания значений переменной используется регрессионный анализ. Его цель - разработать статистическую модель, позволяющую предсказывать значения зависимой переменной, или отклика, по значениям, по крайней мере одной, независимой, или объясняющей, переменной. В настоящей заметке мы рассмотрим простую линейную регрессию - статистический метод, позволяющий предсказывать значения зависимой переменной Y по значениям независимой переменной X . В последующих заметках будет описана модель множественной регрессии, предназначенная для предсказания значений независимой переменной Y по значениям нескольких зависимых переменных (Х 1 , Х 2 , …, X k ).

Скачать заметку в формате или , примеры в формате

Виды регрессионных моделей

где ρ 1 – коэффициент автокорреляции; если ρ 1 = 0 (нет автокорреляции), D ≈ 2; если ρ 1 ≈ 1 (положительная автокорреляции), D ≈ 0; если ρ 1 = -1 (отрицательная автокорреляции), D ≈ 4.

На практике применение критерия Дурбина-Уотсона основано на сравнении величины D с критическими теоретическими значениями d L и d U для заданного числа наблюдений n , числа независимых переменных модели k (для простой линейной регрессии k = 1) и уровня значимости α. Если D < d L , гипотеза о независимости случайных отклонений отвергается (следовательно, присутствует положительная автокорреляция); если D > d U , гипотеза не отвергается (то есть автокорреляция отсутствует); если d L < D < d U , нет достаточных оснований для принятия решения. Когда расчётное значение D превышает 2, то с d L и d U сравнивается не сам коэффициент D , а выражение (4 – D ).

Для вычисления статистики Дурбина-Уотсона в Excel обратимся к нижней таблице на рис. 14 Вывод остатка . Числитель в выражении (10) вычисляется с помощью функции =СУММКВРАЗН(массив1;массив2), а знаменатель =СУММКВ(массив) (рис. 16).

Рис. 16. Формулы расчета статистики Дурбина-Уотсона

В нашем примере D = 0,883. Основной вопрос заключается в следующем - какое значение статистики Дурбина-Уотсона следует считать достаточно малым, чтобы сделать вывод о существовании положительной автокорреляции? Необходимо соотнести значение D с критическими значениями (d L и d U ), зависящими от числа наблюдений n и уровня значимости α (рис. 17).

Рис. 17. Критические значения статистики Дурбина-Уотсона (фрагмент таблицы)

Таким образом, в задаче об объеме продаж в магазине, доставляющем товары на дом, существуют одна независимая переменная (k = 1), 15 наблюдений (n = 15) и уровень значимости α = 0,05. Следовательно, d L = 1,08 и d U = 1,36. Поскольку D = 0,883 < d L = 1,08, между остатками существует положительная автокорреляция, метод наименьших квадратов применять нельзя.

Проверка гипотез о наклоне и коэффициенте корреляции

Выше регрессия применялась исключительно для прогнозирования. Для определения коэффициентов регрессии и предсказания значения переменной Y при заданной величине переменной X использовался метод наименьших квадратов. Кроме того, мы рассмотрели среднеквадратичную ошибку оценки и коэффициент смешанной корреляции. Если анализ остатков подтверждает, что условия применимости метода наименьших квадратов не нарушаются, и модель простой линейной регрессии является адекватной, на основе выборочных данных можно утверждать, что между переменными в генеральной совокупности существует линейная зависимость.

Применение t -критерия для наклона. Проверяя, равен ли наклон генеральной совокупности β 1 нулю, можно определить, существует ли статистически значимая зависимость между переменными X и Y . Если эта гипотеза отклоняется, можно утверждать, что между переменными X и Y существует линейная зависимость. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0: β 1 = 0 (нет линейной зависимости), Н1: β 1 ≠ 0 (есть линейная зависимость). По определению t -статистика равна разности между выборочным наклоном и гипотетическим значением наклона генеральной совокупности, деленной на среднеквадратичную ошибку оценки наклона:

(11) t = (b 1 β 1 ) / S b 1

где b 1 – наклон прямой регрессии по выборочным данным, β1 – гипотетический наклон прямой генеральной совокупности, , а тестовая статистика t имеет t -распределение с n – 2 степенями свободы.

Проверим, существует ли статистически значимая зависимость между размером магазина и годовым объемом продаж при α = 0,05. t -критерий выводится наряду с другими параметрами при использовании Пакета анализа (опция Регрессия ). Полностью результаты работы Пакета анализа приведены на рис. 4, фрагмент, относящийся к t-статистике – на рис. 18.

Рис. 18. Результаты применения t

Поскольку число магазинов n = 14 (см. рис.3), критическое значение t -статистики при уровне значимости α = 0,05 можно найти по формуле: t L =СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, где 0,025 – половина уровня значимости, а 12 = n – 2; t U =СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Поскольку t -статистика = 10,64 > t U = 2,1788 (рис. 19), нулевая гипотеза Н 0 отклоняется. С другой стороны, р -значение для Х = 10,6411, вычисляемое по формуле =1-СТЬЮДЕНТ.РАСП(D3;12;ИСТИНА), приближенно равно нулю, поэтому гипотеза Н 0 снова отклоняется. Тот факт, что р -значение почти равно нулю, означает, что если бы между размерами магазинов и годовым объемом продаж не существовало реальной линейной зависимости, обнаружить ее с помощью линейной регрессии было бы практически невозможно. Следовательно, между средним годовым объемом продаж в магазинах и их размером существует статистически значимая линейная зависимость.

Рис. 19. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, и 12 степенях свободы

Применение F -критерия для наклона. Альтернативным подходом к проверке гипотез о наклоне простой линейной регрессии является использование F -критерия. Напомним, что F -критерий применяется для проверки отношения между двумя дисперсиями (подробнее см. ). При проверке гипотезы о наклоне мерой случайных ошибок является дисперсия ошибки (сумма квадратов ошибок, деленная на количество степеней свободы), поэтому F -критерий использует отношение дисперсии, объясняемой регрессией (т.е. величины SSR , деленной на количество независимых переменных k ), к дисперсии ошибок (MSE = S Y X 2 ).

По определению F -статистика равна среднему квадрату отклонений, обусловленных регрессией (MSR), деленному на дисперсию ошибки (MSE): F = MSR / MSE , где MSR = SSR / k , MSE = SSE /(n – k – 1), k – количество независимых переменных в регрессионной модели. Тестовая статистика F имеет F -распределение с k и n – k – 1 степенями свободы.

При заданном уровне значимости α решающее правило формулируется так: если F > F U , нулевая гипотеза отклоняется; в противном случае она не отклоняется. Результаты, оформленные в виде сводной таблицы дисперсионного анализа, приведены на рис. 20.

Рис. 20. Таблица дисперсионного анализа для проверки гипотезы о статистической значимости коэффициента регрессии

Аналогично t -критерию F -критерий выводится в таблицу при использовании Пакета анализа (опция Регрессия ). Полностью результаты работы Пакета анализа приведены на рис. 4, фрагмент, относящийся к F -статистике – на рис. 21.

Рис. 21. Результаты применения F -критерия, полученные с помощью Пакета анализа Excel

F-статистика равна 113,23, а р -значение близко к нулю (ячейка Значимость F ). Если уровень значимости α равен 0,05, определить критическое значение F -распределения с одной и 12 степенями свободы можно по формуле F U =F.ОБР(1-0,05;1;12) = 4,7472 (рис. 22). Поскольку F = 113,23 > F U = 4,7472, причем р -значение близко к 0 < 0,05, нулевая гипотеза Н 0 отклоняется, т.е. размер магазина тесно связан с его годовым объемом продаж.

Рис. 22. Проверка гипотезы о наклоне генеральной совокупности при уровне значимости, равном 0,05, с одной и 12 степенями свободы

Доверительный интервал, содержащий наклон β 1 . Для проверки гипотезы о существовании линейной зависимости между переменными можно построить доверительный интервал, содержащий наклон β 1 и убедиться, что гипотетическое значение β 1 = 0 принадлежит этому интервалу. Центром доверительного интервала, содержащего наклон β 1 , является выборочный наклон b 1 , а его границами - величины b 1 ± t n –2 S b 1

Как показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Следовательно, b 1 ± t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, или + 1,328 ≤ β 1 ≤ +2,012. Таким образом, наклон генеральной совокупности с вероятностью 0,95 лежит в интервале от +1,328 до +2,012 (т.е. от 1 328 000 до 2 012 000 долл.). Поскольку эти величины больше нуля, между годовым объемом продаж и площадью магазина существует статистически значимая линейная зависимость. Если бы доверительный интервал содержал нуль, между переменными не было бы зависимости. Кроме того, доверительный интервал означает, что каждое увеличение площади магазина на 1 000 кв. футов приводит к увеличению среднего объема продаж на величину от 1 328 000 до 2 012 000 долларов.

Использование t -критерия для коэффициента корреляции. был введен коэффициент корреляции r , представляющий собой меру зависимости между двумя числовыми переменными. С его помощью можно установить, существует ли между двумя переменными статистически значимая связь. Обозначим коэффициент корреляции между генеральными совокупностями обеих переменных символом ρ. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0 : ρ = 0 (нет корреляции), Н 1 : ρ ≠ 0 (есть корреляция). Проверка существования корреляции:

где r = + , если b 1 > 0, r = – , если b 1 < 0. Тестовая статистика t имеет t -распределение с n – 2 степенями свободы.

В задаче о сети магазинов Sunflowers r 2 = 0,904, а b 1 - +1,670 (см. рис. 4). Поскольку b 1 > 0, коэффициент корреляции между объемом годовых продаж и размером магазина равен r = +√0,904 = +0,951. Проверим нулевую гипотезу, утверждающую, что между этими переменными нет корреляции, используя t -статистику:

При уровне значимости α = 0,05 нулевую гипотезу следует отклонить, поскольку t = 10,64 > 2,1788. Таким образом, можно утверждать, что между объемом годовых продаж и размером магазина существует статистически значимая связь.

При обсуждении выводов, касающихся наклона генеральной совокупности, доверительные интервалы и критерии для проверки гипотез являются взаимозаменяемыми инструментами. Однако вычисление доверительного интервала, содержащего коэффициент корреляции, оказывается более сложным делом, поскольку вид выборочного распределения статистики r зависит от истинного коэффициента корреляции.

Оценка математического ожидания и предсказание индивидуальных значений

В этом разделе рассматриваются методы оценки математического ожидания отклика Y и предсказания индивидуальных значений Y при заданных значениях переменной X .

Построение доверительного интервала. В примере 2 (см. выше раздел Метод наименьших квадратов ) регрессионное уравнение позволило предсказать значение переменной Y X . В задаче о выборе места для торговой точки средний годовой объем продаж в магазине площадью 4000 кв. футов был равен 7,644 млн. долл. Однако эта оценка математического ожидания генеральной совокупности является точечной. для оценки математического ожидания генеральной совокупности была предложена концепция доверительного интервала. Аналогично можно ввести понятие доверительного интервала для математического ожидания отклика при заданном значении переменной X :

где , = b 0 + b 1 X i – предсказанное значение переменное Y при X = X i , S YX – среднеквадратичная ошибка, n – объем выборки, X i - заданное значение переменной X , µ Y | X = X i – математическое ожидание переменной Y при Х = Х i , SSX =

Анализ формулы (13) показывает, что ширина доверительного интервала зависит от нескольких факторов. При заданном уровне значимости возрастание амплитуды колебаний вокруг линии регрессии, измеренное с помощью среднеквадратичной ошибки, приводит к увеличению ширины интервала. С другой стороны, как и следовало ожидать, увеличение объема выборки сопровождается сужением интервала. Кроме того, ширина интервала изменяется в зависимости от значений X i . Если значение переменной Y предсказывается для величин X , близких к среднему значению , доверительный интервал оказывается уже, чем при прогнозировании отклика для значений, далеких от среднего.

Допустим, что, выбирая место для магазина, мы хотим построить 95%-ный доверительный интервал для среднего годового объема продаж во всех магазинах, площадь которых равна 4000 кв. футов:

Следовательно, средний годовой объем продаж во всех магазинах, площадь которых равна 4 000 кв. футов, с 95% -ной вероятностью лежит в интервале от 6,971 до 8,317 млн. долл.

Вычисление доверительного интервала для предсказанного значения. Кроме доверительного интервала для математического ожидания отклика при заданном значении переменной X , часто необходимо знать доверительный интервал для предсказанного значения. Несмотря на то что формула для вычисления такого доверительного интервала очень похожа на формулу (13), этот интервал содержит предсказанное значение, а не оценку параметра. Интервал для предсказанного отклика Y X = Xi при конкретном значении переменной X i определяется по формуле:

Предположим, что, выбирая место для торговой точки, мы хотим построить 95%-ный доверительный интервал для предсказанного годового объема продаж в магазине, площадь которого равна 4000 кв. футов:

Следовательно, предсказанный годовой объем продаж в магазине, площадь которого равна 4000 кв. футов, с 95%-ной вероятностью лежит в интервале от 5,433 до 9,854 млн. долл. Как видим, доверительный интервал для предсказанного значения отклика намного шире, чем доверительный интервал для его математического ожидания. Это объясняется тем, что изменчивость при прогнозировании индивидуальных значений намного больше, чем при оценке математического ожидания.

Подводные камни и этические проблемы, связанные с применением регрессии

Трудности, связанные с регрессионным анализом:

  • Игнорирование условий применимости метода наименьших квадратов.
  • Ошибочная оценка условий применимости метода наименьших квадратов.
  • Неправильный выбор альтернативных методов при нарушении условий применимости метода наименьших квадратов.
  • Применение регрессионного анализа без глубоких знаний о предмете исследования.
  • Экстраполяция регрессии за пределы диапазона изменения объясняющей переменной.
  • Путаница между статистической и причинно-следственной зависимостями.

Широкое распространение электронных таблиц и программного обеспечения для статистических расчетов ликвидировало вычислительные проблемы, препятствовавшие применению регрессионного анализа. Однако это привело к тому, что регрессионный анализ стали применять пользователи, не обладающие достаточной квалификацией и знаниями. Откуда пользователям знать об альтернативных методах, если многие из них вообще не имеют ни малейшего понятия об условиях применимости метода наименьших квадратов и не умеют проверять их выполнение?

Исследователь не должен увлекаться перемалыванием чисел - вычислением сдвига, наклона и коэффициента смешанной корреляции. Ему нужны более глубокие знания. Проиллюстрируем это классическим примером, взятым из учебников. Анскомб показал, что все четыре набора данных, приведенных на рис. 23, имеют одни и те же параметры регрессии (рис. 24).

Рис. 23. Четыре набора искусственных данных

Рис. 24. Регрессионный анализ четырех искусственных наборов данных; выполнен с помощью Пакета анализа (кликните на рисунке, чтобы увеличить изображение)

Итак, с точки зрения регрессионного анализа все эти наборы данных совершенно идентичны. Если бы анализ был на этом закончен, мы потеряли бы много полезной информации. Об этом свидетельствуют диаграммы разброса (рис. 25) и графики остатков (рис. 26), построенные для этих наборов данных.

Рис. 25. Диаграммы разброса для четырех наборов данных

Диаграммы разброса и графики остатков свидетельствуют о том, что эти данные отличаются друг от друга. Единственный набор, распределенный вдоль прямой линии, - набор А. График остатков, вычисленных по набору А, не имеет никакой закономерности. Этого нельзя сказать о наборах Б, В и Г. График разброса, построенный по набору Б, демонстрирует ярко выраженную квадратичную модель. Этот вывод подтверждается графиком остатков, имеющим параболическую форму. Диаграмма разброса и график остатков показывают, что набор данных В содержит выброс. В этой ситуации необходимо исключить выброс из набора данных и повторить анализ. Метод, позволяющий обнаруживать и исключать выбросы из наблюдений, называется анализом влияния. После исключения выброса результат повторной оценки модели может оказаться совершенно иным. Диаграмма разброса, построенная по данным из набора Г, иллюстрирует необычную ситуацию, в которой эмпирическая модель значительно зависит от отдельного отклика (Х 8 = 19, Y 8 = 12,5). Такие регрессионные модели необходимо вычислять особенно тщательно. Итак, графики разброса и остатков являются крайне необходимым инструментом регрессионного анализа и должны быть его неотъемлемой частью. Без них регрессионный анализ не заслуживает доверия.

Рис. 26. Графики остатков для четырех наборов данных

Как избежать подводных камней при регрессионном анализе:

  • Анализ возможной взаимосвязи между переменными X и Y всегда начинайте с построения диаграммы разброса.
  • Прежде чем интерпретировать результаты регрессионного анализа, проверяйте условия его применимости.
  • Постройте график зависимости остатков от независимой переменной. Это позволит определить, насколько эмпирическая модель соответствует результатам наблюдения, и обнаружить нарушение постоянства дисперсии.
  • Для проверки предположения о нормальном распределении ошибок используйте гистограммы, диаграммы «ствол и листья», блочные диаграммы и графики нормального распределения.
  • Если условия применимости метода наименьших квадратов не выполняются, используйте альтернативные методы (например, модели квадратичной или множественной регрессии).
  • Если условия применимости метода наименьших квадратов выполняются, необходимо проверить гипотезу о статистической значимости коэффициентов регрессии и построить доверительные интервалы, содержащие математическое ожидание и предсказанное значение отклика.
  • Избегайте предсказывать значения зависимой переменной за пределами диапазона изменения независимой переменной.
  • Имейте в виду, что статистические зависимости не всегда являются причинно-следственными. Помните, что корреляция между переменными не означает наличия причинно-следственной зависимости между ними.

Резюме. Как показано на структурной схеме (рис. 27), в заметке описаны модель простой линейной регрессии, условия ее применимости и способы проверки этих условий. Рассмотрен t -критерий для проверки статистической значимости наклона регрессии. Для предсказания значений зависимой переменной использована регрессионная модель. Рассмотрен пример, связанный с выбором места для торговой точки, в котором исследуется зависимость годового объема продаж от площади магазина. Полученная информация позволяет точнее выбрать место для магазина и предсказать его годовой объем продаж. В следующих заметках будет продолжено обсуждение регрессионного анализа, а также рассмотрены модели множественной регрессии.

Рис. 27. Структурная схема заметки

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 792–872

Если зависимая переменная является категорийной, необходимо применять логистическую регрессию.

Характеристика причинных зависимостей

Причинно-следственные отношения – это связь явлений и процессов, когда изменение одного из них – причины – ведет к изменению другого – следствия.

Признаки по их значению для изучения взаимосвязи делятся на два класса.

Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными (или факторами).

Признаки, изменяющиеся под действием факторных признаков, являются результативными.

Различают следующие формы связи: функциональную и стохастическую. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности.

Функциональную связь можно представить следующим уравнением:
y i =f(x i), где: y i - результативный признак; f(x i) - известная функция связи результативного и факторного признаков; x i - факторный признак.
В реальной природе функциональных связей нет. Они являются лишь абстракциями, полезными при анализе явлений, но упрощающими реальность.

Стохастическая (статистическая или случайная) связь представляет собой связь между величинами, при которой одна из них реагирует на изменение другой величины или других величин изменением закона распределения. Иными словами, при данной связи разным значениям одной переменной соответствуют разные распределения другой переменной. Это обуславливается тем, что зависимая переменная, кроме рассматриваемых независимых, подвержена влиянию ряда неучтенных или неконтролируемых случайных факторов, а также некоторых неизбежных ошибок измерения переменных. В связи с тем, что значения зависимой переменной подвержены случайному разбросу, они не могут быть предсказаны с достаточной точностью, а могут быть только указаны с определенной вероятностью.

В силу неоднозначности стохастической зависимости между Y и X, в частности представляет интерес усредненная по х схема зависимости, т.е. закономерность в изменении среднего значения – условного математического ожидания Мх(У) (математического ожидания случайной переменной У, найденного при условии, что переменная Х приняла значение х) в зависимости от х.

Частным случаем стохастической связи является корреляционная связь. Корреля́ция (от лат. correlatio - соотношение, взаимосвязь). Прямое токование термина корреляция - стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами.

Корреляционной зависимостью между двумя переменными также называют статистическую взаимосвязь между этими переменными, при которой каждому значению одной переменной соответствует определенное среднее значение, т.е. условное математическое ожидание другой. Корреляционная зависимость является частным случаем стохастиче­ской зависимости, при которой изменение значений факторных признаков (х 1 х 2 ..., х n) влечет за собой изменение среднего значения результативно­го признака.



Принято различать следующие виды корреляции:

1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).

2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков, включенных в исследование.

3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.

Назначение регрессионного анализа

Аналитической формой представления причинно-следственных отношений являются регрессионные модели. Научная обоснованность и популярность регрессионного анализа делает его одним из основных математических средств моделирования исследуемого явления. Этот метод применяется для сглаживания экспериментальных данных и получения количественных оценок сравнительного влияния различных факторов на результативную переменную.

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (зависимой переменной или результативного признака) обусловлено влиянием одной или нескольких независимых величин (факторов или предикторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения.

Цели регрессионного анализа:

Оценка функциональной зависимости условного среднего значения результативного признака у от факторных (х 1 ,х 2 , …, х n);

Предсказание значения зависимой переменной с помощью независимой(-ых).

Определение вклада отдельных независимых переменных в вариацию зависимой переменной.

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

В регрессионном анализе зара­нее подразумевается наличие причинно-следственных связей между ре­зультативным (У) и факторными х 1 , х 2 ..., х n признаками.

Функция , оп исывающая зависимость показателя от параметров, называется уравнением (функцией) регрессии 1 . Уравнение регрессии показывает ожидаемое значение зависимой переменной при определенных значениях независимых переменных .
В зависимости от количества включенных в модель факторов Х модели делятся на однофакторные (парная модель регрессии) и многофакторные (модель множественной регрессии). В зависимости от вида функции модели делятся на линейные и нелинейные.

Парная регрессионная модель

В силу воздействия неучтенных случайных факторов и причин отдельные наблюдения у будут в большей или меньшей мере отклоняться от функции регрессии f(х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлено в виде:

Y=f(X) + ɛ,

где ɛ - случайная переменная, характеризующая отклонение от функции регрессии. Эту переменную называют возмущающей или возмущением (остатком или ошибкой). Таким образом, в регрессионной модели зависимая переменная Y есть некоторая функция f(X) с точностью до случайного возмущения ɛ.

Рассмотрим классическую линейную модель парной регрессии (КЛМПР). Она имеет вид

у i =β 0 +β 1 х i +ɛ i (i=1,2, …, n), (1)

где у i –объясняемая (результирующая, зависимая, эндогенная переменная);х i – объясняющая (предикторная, факторная, экзогенная) переменная; β 0 , β 1 – числовые коэффициенты; ɛ i – случайная (стохастическая) составляющая или ошибка.

Основные условия (предпосылки, гипотезы) КЛМПР:

1) х i – детерминированная (неслучайная) величина, при этом предполагается, что среди значений х i – не все одинаковые.

2) Математическое ожидание (среднее значение) возмущения ɛ i равно нулю:

М[ɛ i ]=0 (i=1,2, …, n).

3) Дисперсия возмущения постоянна для любых значений i (условие гомоскедастичности):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) Возмущения для разных наблюдений являются некоррелированными:

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 при i≠j,

где cov[ɛ i , ɛ j ] – коэффициент ковариации (корреляционный момент).

5) Возмущения являются нормально распределенными случайными величинами с нулевым средним значением и дисперсией σ 2:

ɛ i ≈ N(0, σ 2).

Для получения уравнения регрессии достаточно первых четырех предпосылок. Требование выполнения пятой предпосылки необходимо для оценки точности уравнения регрессии и его параметров.

Замечание: Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчётов преобразуют (путём логарифмирования или замены переменных) в линейную форму.

Традиционный метод наименьших квадратов (МНК)

Оценкой модели по выборке является уравнение

ŷ i = a 0 + a 1 x i (i=1,2, …, n), (2)

где ŷ i – теоретические (аппроксимирующие) значения зависимой переменной, полученные по уравнению регрессии; a 0 , a 1 - коэффициенты (параметры) уравнения регрессии (выборочные оценки коэффициентов β 0 , β 1 соответственно).

Согласно МНК неизвестные параметры a 0 , a 1 выбирают так, чтобы сумма квадратов отклонений значений ŷ i от эмпирических значений y i (остаточная сумма квадратов) была минимальной:

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

где e i = y i - ŷ i – выборочная оценка возмущения ɛ i , или остаток регрессии.

Задача сводится к отысканию таких значений параметров a 0 и a 1 , при которых функция Q e принимает наименьшее значение. Заметим, что функция Q e = Q e (a 0 , a 1) есть функция двух переменных a 0 и a 1 до тех пор, пока мы не нашли, а затем зафиксировали их «наилучшие» (в смысле метода наименьших квадратов) значения, а х i , y i – постоянные числа, найденные экспериментально.

Необходимые условия экстремума (3) находятся путем приравнивания к нулю частных производных этой функции двух переменных. В результате получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

(4)

Коэффициент a 1 – выборочный коэффициент регрессии у на х, который показывает на сколько единиц в среднем изменяется переменная у при изменении переменной х на одну единицу своего измерения, то есть вариацию у, приходящуюся на единицу вариации х. Знак a 1 указывает направление этого изменения. Коэффициент a 0 – смещение, согласно (2) равен значению ŷ i при х=0 и может не иметь содержательной интерпретации. За это иногда зависимую переменную называют откликом.

Статистические свойства оценок коэффициентов регрессии:

Оценки коэффициентов a 0 , a 1 являются несмещенными;

Дисперсии оценок a 0 , a 1 уменьшаются (точность оценок увеличивается) при увеличении объема выборки n;

Дисперсия оценки углового коэффициента a 1 уменьшается при увеличении и поэтому желательно выбирать х i так, чтобы их разброс вокруг среднего значения был большим;

При х¯ > 0 (что представляет наибольший интерес) между a 0 и a 1 имеется отрицательная статистическая связь (увеличение a 1 приводит к уменьшению a 0).



Поделиться