Множественная регрессия и корреляция. Решение задач по эконометрике

Пример . По 20 предприятиям региона изучается зависимость выборки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%).

Номер предприятия y Номер предприятия y
7,0 3,9 10,0 9,0 6,0 21,0
7,0 3,9 14,0 11,0 6,4 22,0
7,0 3,7 15,0 9,0 6,8 22,0
7,0 4,0 16,0 11,0 7,2 25,0
7,0 3,8 17,0 12,0 8,0 28,0
7,0 4,8 19,0 12,0 8,2 29,0
8,0 5,4 19,0 12,0 8,1 30,0
8,0 4,4 20,0 12,0 8,5 31,0
8,0 5,3 20,0 14,0 9,6 32,0
10,0 6,8 20,0 14,0 9,0 36,0

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессия и средних коэффициентов эластичности ранжировать факторы по степени их влияния результатов.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.

3.

4. С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью частных F-критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после .

6.

Решение:

Найдем средние квадратические отклонения признаков:

1. Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной

регрессии

необходимо решить следующую систему линейных уравнений относительно неизвестных параметров

Либо воспользоваться готовыми формулами:

Рассчитаем сначала парные коэффициенты корреляции:

Таким образом получили следующие уравнение множественной регрессии:

Коэффициенты и стандартизованного уравнения регрессии ,

находятся по формулам:

;

.

Т.е. уравнение будет выглядеть следующим образом:

Так как стандартизованные коэффициенты регрессии можно сравнить между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большое влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

Вычисляем:

Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,61 % или 0,20% соответственно. Таким образом, подтверждается большее влияние на результат y фактора x 1 , чем фактора x 2 .

2. Коэффициенты парной корреляции мы уже нашли:

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы х х и х 2 явно коллинеарны, т.к. ). При такой сильной

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:

где

Определитель матрицы парных коэффициентов корреляции;

Определитель матрицы межфакторной корреляции.

Коэффициент множественной корреляции

Аналогичный результат получим при использовании других формул:

Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.

3. Нескорректированный коэффициент множественной

детерминации = 0,947 оценивает долю вариации результата за счет

представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 94,7% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации

определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 94%) детерминированность результата у в модели факторами х 1 и х 2 .

4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает F -критерий Фишера:

В нашем случае фактическое значение F-критерия Фишера:

Получили, что > (при n = 20), т.е. вероятность случайно получить такое значение F-критерия не превышает допустимый уровень значимости 5%. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи .

5. С помощью частных F-критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:

;

.

Найдем и .

;

.

Получили, что . Следовательно, включение в

модель фактора x 2 после того, как в модель включен фактор x 1 статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака x 2 оказывается незначительным, несущественным; фактор х 2 включать в уравнение после фактора х 1 не

Если поменять первоначальный порядок включения факторов в модель

и рассмотреть вариант включения x 1 после х 2 , то результат расчета частного F -критерия для х 1 будет иным. , т.е. вероятность его

случайного формирования меньше принятого стандарта а = 0,05 (5%). Следовательно, значение частного F -критерия для дополнительно включенного фактора x 1 не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора x 1 является существенным. Фактор x 1 должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора x 2 .

6. Общий вывод состоит в том, что множественная модель с факторами x 1 и х 2 с =0,947 содержит неинформативный фактор х 2 . Если исключить фактор х 2 , то можно ограничиться уравнением парной регрессии:

.

Варианты индивидуальных заданий

По 20 предприятиям региона изучается зависимость выработки продукции на одного работника у (тыс. руб.) от ввода в действие новых

основных фондов х, (% от стоимости фондов на конец года) и от удельного

веса рабочих высокой квалификации в общей численности рабочих x 2 (%) (смотри таблицу своего варианта).

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной частной и множественной корреляции. Проанализировав их.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

4. С помощью F- критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью частных F - критериев Фишера оценить целесообразность включения в управление множественной регрессии фактора x 1 после x 2 и фактора x 2 после x 1 .

6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

Вариант 1

Номер предприятия y Номер предприятия y
3,6 6,3
3,6 6,4
3,6
4,1 7,5
3,9 7,9
4,5 8,2
5,3
5,3 8,6
5,6 9,5
6,8

Вариант 2

Номер предприятия y x 1 x 2 Номер предприятия y x 1 x 2
3,5 6,3
3,6 6,4
3,9
4,1 7,5
4,2 7,9
4,5 8,2
5,3 8,4
5,3 8,6
5,6 9,5
Вариант 3
Номер предприятия y x 1 x 2 Номер предприятия y x 1 x 2
3,7 6,3
3,7 6,4
3,9 7,2
4,1 7,5
4,2 7,9
4,9 8,1
5,3 8,4
5,1 8,6
5,6 9,5
6,1 9,5
Вариант 4
Номер предприятия y x 1 x 2 Номер предприятия y x 1 x 2
3,5 6,3
3,6 6,5
3,9 7,2
4,1 7,5
4,2 7,9
4,5 8,2
5,3 8,4
5,5 8,6
5,6 9,5
6,1 9,6

Вариант 5

Номер предприятия y Номер предприятия y
3,6 6,3
3,6 6,8
3,7 7,2
4,1 7,9
4,3 8,1
4,5 8,3
5,4 8,4
5,5 8,8
5,8 9,6
6,1 9,7

Приводим бесплатно примеры условий решенных задач по эконометрике:

Решение задач по эконометрике. Задача №1. Пример уравнения парной линейной регрессии с одной переменной

Условие задачи:

По семи территориям Уральского региона известны значения двух признаков за 201_ год:

Размещено на www.сайт

1. Для характеристики зависимости y от x рассчитать параметры уравнения парной линейной регрессии;
2. Рассчитать линейный коэффициент парной корреляции и дать его интерпретацию;
3. Рассчитать коэффициент детерминации и дать его интерпретацию;
4. Оценить качество полученной модели линейной регрессии через среднюю ошибку аппроксимации и F-критерий Фишера.

Пример решения задачи по эконометрике с объяснениями и ответом. Пример построения уравнения парной линейной регрессии:

Для построения уравнения парной линейной регрессии составим таблицу вспомогательных расчетов, где будут произведены необходимые промежуточные вычисления:

№ района Среднедневная заработная плата одного работающего, руб., х yx
1 66.3 41.5 2751.45
2 59.9 57.7 3456.23
3 57.3 55.8 3197.34
4 53.1 59.4 3154.14
5 51.7 56.7 2931.39
6 50.7 44.6 2261.22
7 48 52.7 2529.6
Итого 387 368.4 20281.37
Среднее значение 55.29 52.63 2897.34
σ 5.84 6.4 -
σ 2 34.06 40.93 -

Коэффициент b вычисли по формуле:

Пример расчета коэффициента b уравнения парной линейной регрессии: b = (2897.34-55.29*52.63)/40.93 = -0.31

Коэффициент a вычисли по формуле:

Пример расчета коэффициента a уравнения парной линейной регрессии: a = 55.29 - -0.31*52.63 = 71.61

Получим следующее уравнение парной линейной регрессии:

Y = 71.61-0.31х

Линейный коэффициент парной корреляции рассчитаем по формуле:

Пример расчета линейного коэффициента парной корреляции:

r yx = -0.31*6.4 / 5.84 = -0.3397

Интерпретация значения линейного коэффициента парной корреляции осуществляется на основе шкалы Чеддока. Согласно шкале Чеддока между расходами на покупку продовольственных товаров в общих расходах и среднедневной заработной платой одного работающего имеется обратная умеренная связь.

r 2 yx = -0.3397*-0.3397 = 0.1154 или 11.54%

Интерпретация значения коэффициента детерминации: согласно полученному значению коэффициента детерминации вариация расходов на покупку продовольственных товаров в общих расходах только на 11.54% определяется вариацией среднедневной заработной платой одного работающего, что является низким показателем.

Пример расчета значения средней ошибки аппроксимации:

№ района Расходы на покупку продовольственных товаров в общих расходах, %, y Y y-Y A i
1 66,3 58,7 7,6 11,5
2 59,9 53,7 6,2 10,4
3 57,3 54,3 3 5,2
4 53,1 53,2 -0,1 0,2
5 51,7 54 -2,3 4,4
6 50,7 57,8 -7,1 14
7 48 55,3 -7,3 15,2
Итого - - - 60,9
Среднее значение - - - 8,7

Интерпретация значения средней ошибки аппроксимации: полученное значение средней ошибки аппроксимации менее 10% говорит о том, что построенное уравнения парной линейной регрессии имеет высокое (хорошее) качество.

Пример расчета F-критерия Фишера: F = 0.1154 / 0.8846*5 = 0.65.

Интерпретация значения F-критерия Фишера. Так как полученное значение F-критерия Фишера меньше табличного критерия, то полученное уравнение парной линейной регрессии является статистически незначимым и не пригодным для описания зависимости доли расходов на покупку продовольственных товаров в общих расходах только от величины среднедневной заработной платой одного работающего. Показатель тесноты связи также признается статистически незначимым.

Рассмотрим пример решения предыдущей задачи по эконометрике в Excel. В Excel существует несколько способов определения параметров уравнения парной линейной регрессии. Рассмотрим пример одного из способов определения параметров уравнения парной линейной регрессии в Excel. Для этого используем функцию ЛИНЕЙН. Порядок решения следующий:

1. Вводим исходные данные в лист Excel


Исходные данные в листе Excel для построения модели линейной регрессии

2. Выделяем область пустых ячеек на рабочем листе Excel диапазоном 5 строк на 2 столбца:


Построение уравнения линейной регрессии в MS Excel

3. Выполняем команду "Формулы" - "Вставить функцию" и в открывающемся окне выбираем функцию ЛИНЕЙН:


4. Заполняем аргументы функции:

Известные_значения_y - диапазон с данными о расходах на покупку продовольственных товаров y

Известные_значения_y - диапазон с данными о среднедневной заработной плате х

Конст = 1, т.к. в уравнении регрессии должен присутствовать свободный член;

Статистика = 1, т.к. должна выводиться необходимая информация.


5. Нажимаем кнопку "ОК"

6. Для просмотра результатов расчета параметров уравнения парной линейной регрессии в Excel, не снимая выделения с области, нажимаем F2 и далее одновременно CTRL+SHIFT+ENTER. Получаем следующие результаты:


Согласно результатам расчетов в Excel уравнение линейной регрессии будет иметь вид: Y = 71.06-0.2998x. F-критерий Фишера составит 0.605, коэффициент детерминации - 0.108. Т.е. параметры уравнения регрессии, рассчитанные с помощью Excel незначительно отличаются от тех, что получены при аналитическом решении. Это связано с отсутствием округлений при выполнении промежуточных расчетов в Excel.

Как купить задачи по эконометрике?

Купить решение задач по эконометрике на нашем сайте очень просто - для этого требуется лишь заполнить форму заказа. Имея большое количество уже готовых решенных задач, мы имеем возможность или предложить их по более низкой цене, либо согласовать сроки и способы оплаты для новых. В среднем длительность решения задач может составлять 1-5 дней в зависимости от уровня их сложности и количества; оптимальные формы оплаты: банковская карта или Яндекс.Деньги. В целом, чтобы купить задачи по эконометрике на нашем сайте, нужно сделать только три шага:
- прислать условия задач;
- согласовать сроки решения и форму оплаты;
- перевести предоплату и получить решенные задачи.

Решение задач по эконометрике. Задача №2. Пример уравнения гиперболической регрессии (уравнение равносторонней гиперболы)

Условие задачи:

Изучается зависимость материалоемкости продукции от размера предприятия по 10 однородным заводам:

№ завода Потреблено материалов на единицу продукции, кг. Выпуск продукции, тыс.ед.
1 9,9 113
2 7,8 220
3 6,8 316
4 5,8 413
5 4,5 515
6 5,5 614
7 4,3 717
8 6,9 138
9 8,8 138
10 5,3 262

На основе исходных данных:
1. Определить параметры уравнения гиперболической регрессии (уравнение равносторонней гиперболы);
2. Рассчитать значение индекса корреляции;
3. Определить коэффициент эластичности для уравнения гиперболической регрессии (уравнение равносторонней гиперболы);
4. Оценить значимость уравнения гиперболической регрессии (уравнение равносторонней гиперболы).

Бесплатно пример решения задачи по эконометрике №2 с объяснениями и выводами:

Для построения уравнения гиперболической регрессии (уравнение равносторонней гиперболы) необходимо выполнить линеаризацию переменной x. Составим таблицу вспомогательных расчетов:

№ завода Потреблено материалов на единицу продукции, кг., y Выпуск продукции, тыс.ед., z yz
1 9,9 0,00885 0,087615
2 7,8 0,004545 0,035451
3 6,8 0,003165 0,021522
4 5,8 0,002421 0,014042
5 4,5 0,001942 0,008739
6 5,5 0,001629 0,00896
7 4,3 0,001395 0,005999
8 6,9 0,007246 0,049997
9 8,8 0,007246 0,063765
10 5,3 0,003817 0,02023
Итого 65,6 0,042256 0,31632
Среднее значение 6,56 0,004226 0,031632
σ 1,75 0,002535 -
σ 2 3,05 0,000006 -

Параметр b уравнения гиперболической регрессии рассчитаем по формуле:

Пример расчета параметра b уравнения равносторонней гиперболы:

b = (0.031632-6.56*0.004226)/0.000006 = 651.57

Параметр a уравнения гиперболической регрессии рассчитаем по формуле:

Пример расчета параметра a уравнения равносторонней гиперболы:

a = 6.56-651.57*0.004226 = 3.81

Получаем следующее уравнение гиперболической регрессии:

Y = 3.81+651.57 / х

Значение индекса корреляции для уравнения равносторонней гиперболы рассчитаем по формуле:

Для расчета индекса корреляции построим таблицу вспомогательных расчетов:

№ завода y Y (y-Y) 2 (y-y средн) 2
1 9,9 9,6 0,09 11,16
2 7,8 6,8 1 1,54
3 6,8 5,9 0,81 0,06
4 5,8 5,4 0,16 0,58
5 4,5 5,1 0,36 4,24
6 5,5 4,9 0,36 1,12
7 4,3 4,7 0,16 5,11
8 6,9 8,5 2,56 0,12
9 8,8 8,5 0,09 5,02
10 5,3 6,3 1 1,59
Итого 65,6 65,7 6,59 30,54

Пример расчета индекса корреляции:

ρ xy = √(1-6.59 / 30.54) = 0.8856

Интерпретация индекса корреляции осуществляется на основе шкалы Чеддока. Согласно шкале Чеддока между выпуском продукции и материалоемкостью имеется очень тесная связь.

Коэффициент эластичности для уравнения равносторонней гиперболы (гиперболической регрессии) определим по формуле:

Формула коэффициента эластичности для уравнения равносторонней гиперболы (гиперболической ргрессии)

Пример расчета коэффициента эластичности для гиперболической регрессии:

Э yx = -(651.57 / (3.81*344.6+651.57)) = -0.33%.

Интерпретация коэффициента эластичности: рассчитанный коэффициент эластичности для гиперболической регрессии показывает, что с ростом объема выпуска продукции на 1% от его среднего значения потребление материалов на единицу продукции уменьшается на 0.33% % от своего среднего значения.

Оценку значимость уравнения гиперболической регрессии (уравнения равносторонней гиперболы) выполним при помощи F-критерия Фишера для нелинейной регрессии. F-критерий Фишера для нелинейной регрессии определим по формуле:

Пример расчета F-критерия Фишера для нелинейной регрессии. Fфакт = 0.7843 / (1-0.7843) * 8 = 29.09. Так как фактическое значение F-критерия Фишера больше табличного, то полученное уравнение гиперболической регрессии и показатели тесноты связи являются статистически значимыми.

Решение задач по эконометрике. Задача №3. Пример оценки статистической значимости параметров регрессии и корреляции

Условие задачи:

По территориям региона приводятся данные за 199x г (вариант см. таблицу):

Требуется:
1. Построить линейное уравнение парной регрессии у от х
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х , составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Для построения линейного уравнения парной регрессии y от х составим таблицу вспомогательных расчетов:

№ региона х у yx Y dY A i
1 72 117 8424 135,63 -18,63 13,74
2 73 137 10001 136,94 0,06 0,04
3 78 125 9750 143,49 -18,49 12,89
4 73 138 10074 136,94 1,06 0,77
5 75 153 11475 139,56 13,44 9,63
6 93 175 16275 163,14 11,86 7,27
7 55 124 6820 113,36 10,64 9,39
Итого 519 969 72819 969,06 -0,06 53,73
Среднее значение 74,14 138,43 10402,71 - - 7,68
σ 10,32 18,52 - - - -
σ 2 106,41 342,82 - - - -

Рассчитаем параметр b уравнения парной регрессии по данной , указанной при решении задачи 1 по эконометрике:

b = (10402.71-138.43*74.14)/106.41 = 1.31

Определим параметр a уравнения парной регрессии по данной :

a = 138.43-1.31*74.14 = 41.31

Получим следующее уравнение парной регрессии:

Y = 41.31+1.31х

Рассчитаем линейный коэффициент парной корреляции по данной , указанной при решении задачи 1 по эконометрике

Пример расчета значения коэффициента корреляции:

r yx = 1.31*10.32 / 18.52 = 0.73

Интерпретация значения линейного коэффициента парной корреляции осуществляется на основе шкалы Чеддока. Согласно шкале Чеддока между среднедушевым прожиточным минимумом в день одного трудоспособного и среднедневной заработной платой имеется прямая тесная связь.

Пример расчета значения коэффициента детерминации:

r 2 yx = 0.73*0.73 = 0.5329 или 53.29%

Интерпретация значения коэффициента детерминации: согласно полученному значению коэффициента детерминации вариация среднедневной заработной платы на 53.29% определяется вариацией среднедушевого прожиточного минимума в день одного трудоспособного.

А = 53.73 / 7 = 7.68%.

Интерпретация значения средней ошибки аппроксимации: полученное значение средней ошибки аппроксимации менее 10% говорит о том, что построенное уравнения парной регрессии имеет высокое (хорошее) качество.

Оценку статистической значимости параметров регрессии и корреляции проведем на основе t-критерия. Для этого определим случайные ошибки параметров линейного уравнения парной регрессии.

Случайную ошибку параметра a определим по формуле:

Пример расчета случайной ошибки параметра уравнения парной регрессии:

m a = √(1124.58 / 5)*(39225 / 5214.02) = 41.13

Случайную ошибку коэффициента b определим по формуле:

Пример расчета случайной ошибки коэффициента b уравнения парной регрессии:

m b = √((1124.58 / 5)/744.86) = 0.55

Случайную ошибку коэффициента корреляции r определим по формуле:

Пример расчета случайной ошибки коэффициента корреляции:

t a = 41.31 / 41.13 = 1.0044. Так как t a а линейного уравнения парной регрессии является статистически незначимым.

t b = 1.31 / 0.55 = 2.3818. Так как t b b линейного уравнения парной регрессии является статистически незначимым.

t r = 0.73 / 0.3056 = 2.3887. Так как t r

Таким образом, полученное уравнение является статистически не значимым.

Определим предельную ошибку для параметра регрессии a : Δ а = 2.5706*41.13 = 105.73

Предельная ошибка для коэффициента регрессии b составит: Δ b = 2.5706*0.55 = 1.41

ϒ amin = 41.31 - 105.73 = -64.42

ϒ amax = 41.31+105.73 = 147.04

а a .

ϒ bmin = 1.31 - 1.41 = -0.1

ϒ bmax = 1.31+1.41 = 2.72

Интерпретация доверительного интервала: анализ полученного интервала параметра регрессии b говорит о том, что полученный параметр содержит нулевое значение, т.е. подтверждается вывод о статистической незначимости параметра регрессии b .

Если прогнозное значение среднедушевого прожиточного минимума х составит 107% от среднего уровня, то прогнозное значение заработной платы составит Yп = 41.31+1.31*79.33 = 145.23 руб.

Стандартную ошибку прогноза рассчитаем по формуле:

Пример расчета ошибки прогноза:

m yp = 16.77*1.0858 = 18.21 руб.

Предельная ошибка прогноза составит: Δ yp = 18.21*2.5706 = 46.81 руб.

ϒ pmin = 145.23 - 46.81 = 98.42 руб.

ϒ pmax = 145.23+46.81 = 192.04 руб.

Диапазон верхней и нижней границ доверительного интервала прогноза:

D = 192.04 / 98.42 = 1.95 раза.

Таким образом, рассчитанный прогноз среднедневной заработной платы оказался статистически, что показывает характеристика параметров уравнения регрессии, и неточным, что показывает высокое значение диапазона верхней и нижней границ доверительного интервала прогноза.

Решение задач по эконометрике. Задача №4

По 20 территориям России изучаются следующие данные (таблица): зависимость среднегодового душевого дохода у (тыс. руб.) от доли занятых тяжелым физическим трудом в общей численности занятых х 1 (%) и от доли экономически активного населения в численности всего населения x 2 (%).

Среднее значение

Среднее квадратическое отклонение

Характеристика тесноты связи

Уравнение связи

Ryx 1 x 2 = 0,773

Уx 1 x 2 = -130,49 + 6,14 * х 1 + 4,13 * х 2

У x1 = 74,4 + 7,1*x 1 ,

r yx2 = 0.507
r x1 x2 = 0.432

Y x2 =-355,3+9,2*x 2

Требуется:
1. Составить таблицу дисперсионного анализа для проверки при уровне значимости а = 0,05 статистической значимости уравнения множественной регрессии и его показателя тесноты связи.
2. С помощью частных F -критериев Фишера оценить, насколько целесообразно включение в уравнение множественной регрессии фактора х 1 после фактора x 2 и насколько целесообразно включение х 2 после х 1 .
3. Оценить с помощью t -критерия Стьюдента статистическую значимость коэффициентов при переменных х 1 и х 2 множественного уравнения регрессии.

Решение задач по эконометрике. Задача №5

Зависимость спроса на свинину х 1 от цены на нее x 2 и от цены на говядину х 3 представлена уравнением:
lg x 1 = 0,1274 - 0,2143 * lg x 2 + 2,8254 * Igx 3
Требуется:
1. Представить данное уравнение в естественной форме (не в логарифмах).
2. Оценить значимость параметров данного уравнения, если известно, что критерий для параметра b 2 при х 2 . составил 0,827, а для параметра b 3 при x 3 - 1,015

Пример решения задачи №5 по эконометрике с пояснениями и выводами (формулы не приводятся):

Представленное степенное уравнение множественной регрессии приводим к естественной форме путем потенцирования обеих частей уравнения: х 1 = 1,3409 * (1/ х 2 0,2143) * х 3 2,8254 . Значения коэффициентов регрессии b 1 и b 2 в степенной функции равны коэффициентам эластичности результатах х 1 от х 2 и х 3: Эх 1 х 2 = - 0,2143%; Эх 1 х 3 = - 2,8254%. Спрос на свинину х 1 сильнее связан с ценой на говядину - он увеличивается в среднем на 2,83% при росте цен на 1%. С ценой на свинину спрос на нее связан обратной зависимостью: с ростом цен на 1% потребление снижается и среднем на 0,21%. Табличное значение t-критерия для a = 0,05 обычно лежит в интервале 2 - 3 в зависимости от степеней свободы. В данном примере t b2 = 0,827, t b3 = 1,015. Это весьма небольшие значения t-критерия, которые свидетельствуют о случайной природе взаимосвязи, о статистической ненадежности всего уравнения, поэтому применять полученное уравнение для прогноза не рекомендуется.

Решение задач по эконометрике. Задача №6

По 20 предприятиям региона (см. таблицу) изучается зависимость выработки продукции на одного работника у (тыс. руб.) от ввода в действие новых основных фондов x 1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих x 2 (%).

Номер предприятия

Номер предприятия

Требуется:
1. Оценить показатели вариации каждого признака и сделать вывод о возможностях применения МНК для их изучения.
2. Проанализировать линейные коэффициенты парной и частной корреляции.
3. Написать уравнение множественной регрессии, оценить значимость его параметров, пояснить их экономический смысл.
4. С помощью F -критерия Фишера оценить статистическую надежность уравнения регрессии и R 2 yx1x2 . Сравнить значения скорректированного и нескорректированного линейных коэффициентов множественной детерминации.
5. С помощью частных F -критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора х 1 после x 2 и фактора х 2 после х 1 .
6. Рассчитать средние частные коэффициенты эластичности и дать на их основе сравнительную оценку силы влияния факторов на результат.

Решение задач по эконометрике. Задача №7

Рассматривается следующая модель:
С t = a 1 + b 11 * Y t + b 12 * C t-1 + U 1 (функция потребления);
I t = a 2 + b 21 * r t + b 22 * I t-1 + U 2 (функция инвестиций);
r t = а 3 + b 31 * Y t + b 32 * M t + U 3 (функция денежного рынка);
Y t = C t + I t + G t (тождество дохода),
где:
С t t ;
Y t - совокупный доход в период t ;
I t - инвестиции в период t ;
r t - процентная ставка в период t ;
M t - денежная масса в период t ;
G t - государственные расходы в период t ,
C t-1 - расходы на потребление в период t - 1 ;
I t-1 - инвестиции в период t - 1 ;
U 1 , U 2 , U 3 - случайные ошибки.
Требуется:
1. В предположении, что имеются временные ряды данных по всем переменным модели, предложите способ оценки ее параметров.
2. Как изменится ваш ответ на вопрос п. 1, если из модели исключить тождество дохода?

Решение задач по эконометрике. Задача №8

По данным за 18 месяцев построено уравнение регрессии зависимости прибыли предприятия у (млн. руб.) от цен на сырье х 1 (тыс. руб. за 1 т) и производительности труда х 2 (ед. продукции на 1 работника):
у = 200 - 1,5 * х 1 +4,0 * х 2 .
При анализе остаточных величин были использованы значения, приведенные в табл.:

SUM E 2 t = 10500, SUM (E t - E t-1) 2 = 40000
Требуется:
1. По трем позициям рассчитать у, E t , E t-1 , E 2 t , (E t - E t-1) 2 .
2. Рассчитать критерий Дарбина - Уотсона.
3. Оценить полученный результат при 5%-ном уровне значимости.
4. Указать, пригодно ли уравнение для прогноза.

Решение задач по эконометрике. Задача №9

Имеются следующие данные о величине дохода на одного члена семьи и расхода на товар А :

Показатель

Расходы на товар А , руб.

Доход на одного члена семьи, % к 1985 г.

Требуется:
1. Определить ежегодные абсолютные приросты доходов и расходов и сделать выводы о тенденции развития каждого ряда.
2. Перечислить основные пути устранения тенденции для построения модели спроса на товар А в зависимости от дохода.
3. Построить линейную модель спроса, используя первые разности уровней исходных динамических рядов.
4. Пояснить экономический смысл коэффициента регрессии.
5. Построить линейную модель спроса на товар А , включив в нее фактор времени. Интерпретировать полученные параметры.

Решение задач по эконометрике. Задача №10

По данным машиностроительных предприятий, методами корреляционного анализа исследовать взаимосвязь между следующими показателями: X 1 - рентабельность (%); X 2 - премии и вознаграждения на одного работника (млн. руб.); X 3 -фондоотдача


2. Рассчитайте вектора средних и среднеквадратических отклонений, матрицу парных коэффициентов корреляции
3. Рассчитайте частные коэффициенты корреляции r 12/3 и r 13/2
4. По корреляционной матрице R рассчитайте оценку множественного коэффициента корреляции r 1/23
5. При а=0,05 проверьте значимость всех парных коэффициентов корреляции.
6. При а=0,05 проверьте значимость частных коэффициентов корреляции r 12/3 и r 13/2
7. При а=0,05 проверьте значимость множественного коэффициента корреляции.

Решение задач по эконометрике. Задача №11

По данным сельскохозяйственных районов региона требуется построить регрессионную модель урожайности на основе следующих показателей:
Y - урожайность зерновых культур (ц/га);
X 1 - число колесных тракторов на 100 га;
X 2 - число зерноуборочных комбайнов на 100 га;
X 3 - число орудий поверхностной обработки почвы на 100 га;
X 4 - количество удобрений, расходуемых на гектар(т/га);
X 5 - количество химических средств защиты растений, расходуемых на гектар (ц/га)

1. Из предложенных данных вычеркните строчку с номером, соответствующим последней цифре номера зачетной книжки.
2. Проведите корреляционный анализ: проанализируйте связи между результирующей переменной и факторными признаками по корреляционной матрице, выявите мультиколлинеарность.
3. Постройте уравнения регрессии со значимыми коэффициентами, используя пошаговый алгоритм регрессионного анализа.
4. Выберите лучшую из полученных регрессионных моделей, основываясь на анализе значений коэффициентов детерминации, остаточных дисперсий, с учетом результатов экономической интерпретации моделей.

Решение задач по эконометрике. Задача №12

За период с 1998 по 2006 год по Российской Федерации приводятся сведения и численности экономически активного населения - W t , млн. чел., (материалы выборочного обследования Госкомстата).

Задание:
1. Постройте график фактических уровней динамического ряда - W t
2. Рассчитайте параметры параболы второго порядка W t =a 0 +a 1 *t+a 2 *t 2
3. Оцените полученные результаты:
- с помощью показателей тесноты связи
- значимость модели тренда через F -критерий;
- качество модели через корректированную среднюю ошибку аппроксимации, а также через коэффициент автокорреляции отклонений от тренда
4. Выполните прогноз до 2008 года.
5. Проанализируйте полученные результаты.

Решение задач по эконометрике. Задача №13

Предлагается изучить взаимозависимость социально-экономических показателей региона.
Y1 - расходы населения региона на личное потребление, млрд. руб.
Y2 - стоимость продукции и услуг текущего года, млрд. руб.
Y3 - фонд оплаты труда занятых в экономике региона, млрд. руб.
X1 - удельный вес занятых в экономике среди всего населения региона, %
X2- среднегодовая стоимость основных производственных фондов в экономике региона, млрд. руб.
X3 - инвестиции текущего года в экономику региона, млрд. руб.
При этом, сформулированы следующие исходные рабочие гипотезы:
Y1=f(Y3,X1)
Y2=f(Y3,X1,X2,X3)
Y3=f(Y1,Y2,X1,X3)
Задание:
1. На основе рабочих гипотез постройте систему структурных уравнений и проведите их идентификацию;
2. Укажите, при каких условиях может быть найдено решение каждого из уравнений и системы в целом. Дайте обоснование возможных вариантов подобных решений и аргументируйте выбор оптимального варианта рабочих гипотез;
3. Опишите методы, с помощью которых будет найдено решение уравнений (косвенный МНК, двухшаговый МНК).

Решение задач по эконометрике. Задача №14

Для проверки рабочих гипотез (№1 и №2) о связи социально-экономических показателей в регионе используется статистическая информация за 2000 год по территориям Центрального федерального округа:
Y1 - среднегодовая стоимость основных фондов в экономике, млрд. руб.;
Y2 - стоимость валового регионального продукта, млрд. руб.;
X1 - инвестиции 2000 года в основной капитал, млрд. руб.;
X2 - среднегодовая численность занятых в экономике, млн. чел.;
X3 - среднемесячная начисленная заработная плата 1-го занятого в экономике, тыс. руб.
Y1=f(X1;X2) - №1
Y2=f(Y1,X3) - №2
Предварительный анализ исходных данных по 18 территориям выявил наличие трёх территорий (г. Москва, Московская обл., Воронежская обл.) с аномальными значениями признаков. Эти единицы должны быть исключены из дальнейшего анализа. Значения приводимых показателей рассчитаны без учёта указанных аномальных единиц.
При обработке исходных данных получены следующие значения линейных коэффициентов парной корреляции, средних и средних квадратических отклонений:
N=15.

Для проверки рабочей гипотезы №1. Для проверки рабочей гипотезы №2.

Задание:
1. Составьте систему уравнений в соответствии с выдвинутыми рабочими гипотезами.

3. На основе приведённых в условии значений матриц коэффициентов парной корреляции, средних и средних квадратических отклонений:
- определите бета коэффициенты и постройте уравнения множественной регрессии в стандартизованном масштабе;
- дайте сравнительную оценку силы влияния факторов на результат;
- рассчитайте параметры a1, a2 и a0 уравнений множественной регрессии в естественной форме; - с помощью коэффициентов парной корреляции и бета-коэффициентов рассчитайте для каждого уравнения линейный коэффициент множественной корреляции (R) и детерминации (R 2);
- оцените с помощью F-критерия Фишера статистическую надёжность выявленных связей.
4. Выводы оформите краткой аналитической запиской.

Решение задач по эконометрике. Задача №15

Проводится анализ значений социально-экономических показателей по территориям Северо-Западного федерального округа РФ за 2000 год:
Y - инвестиции 2000 года в основной капитал, млрд. руб.;
X1 - среднегодовая численность занятых в экономике, млн. чел.;
X2 - среднегодовая стоимость основных фондов в экономике, млрд. руб.;
X3 - инвестиции 1999 года в основной капитал, млрд. руб.
Требуется изучить влияние указанных факторов на стоимость валового регионального продукта.
Предварительный анализ исходных данных по 10 территориям выявил одну территорию (г. Санкт-Петербург) с аномальными значениями признаков. Эта единица должна быть исключена из дальнейшего анализа. Значения приводимых показателей рассчитаны без учёта указанной аномальной единицы.
При обработке исходных данных получены следующие значения:
А) - линейных коэффициентов парной корреляции, средних и средних квадратических отклонений: N=9.

Б) - коэффициентов частной корреляции

Задание
1. По значениям линейных коэффициентов парной и частной корреляции выберите неколлинеарные факторы и рассчитайте для них коэффициенты частной корреляции. Проведите окончательный отбор информативных факторов во множественную регрессионную модель.
2. Выполните расчёт бета коэффициентов и постройте с их помощью уравнение множественной регрессии в стандартизованном масштабе. Проанализируйте с помощью бета коэффициентов силу связи каждого фактора с результатом и выявите сильно и слабо влияющие факторы.
3. По значениям бета-коэффициентов рассчитайте параметры уравнения в естественной форме (a1, a2 и a0). Проанализируйте их значения. Сравнительную оценку силы связи факторов дайте с помощью общих (средних) коэффициентов эластичности
2. Определите вид уравнений и системы.
4. Оцените тесноту множественной связи с помощью R и R 2 , а статистическую значимость уравнения и тесноту выявленной связи - через F-критерий Фишера (для уровня значимости а=0,05).

Пусть имеется следующая модель регрессии, характеризующая зависимость y от x: y = 3+2x. Известно также, что rxy = 0,8; n = 20. Вычислите 99-процентный доверительный интервал для параметра регрессии b.

Решение задач по эконометрике. Задача №18

Модель макроэкономической производственной функции описывается следующим уравнением: lnY = -3,52+1,53lnK+0,47lnL+e. R2 = 0,875, F = 237,4. (2,43), (0,55), (0,09). В скобках указаны значения стандартных ошибок для коэффициентов регрессии.
Задание: 1. Оцените значимость коэффициентов модели по t-критерию Стьюдента и сделайте вывод о целесообразности включения факторов в модель.
2. Запишите уравнение в степенной форме и дайте интерпретацию параметров.
3. Можно ли сказать, что прирост ВНП в большей степени связан с приростом затрат капитала, нежели с приростом затрат труда?

Решение задач по эконометрике. Задача №19

Структурная форма модели имеет вид:
Ct = a1+b11Yt+b12Tt+e1
It = a2+b2Yt-1+e2
Tt=a3+b31Yt+e
Yt=Ct+It+Gt
где: Ct - совокупное потребление в период t, Yt - совокупный доход в период t, It - инвестиции в период t, Тt - налоги в период t, Gt - государственные расходы в период t, Yt-1 - совокупный доход в период t-1.
Задание: 1. Проверьте каждое уравнение модели на идентифицируемость, применив необходимое и достаточное условия идентифицируемости.
2. Запишите приведенную форму модели.
3. Определите метод оценки структурных параметров каждого уравнения.

Решение задач по эконометрике. Задача №20

Оцените по размещенным в табл. 6.5 статистическим данным из экономики России (%) ковариацию и коэффициент корреляции между изменениями безработицы в стране в текущем периоде x t и темпа прироста реального ВВП в текущем периоде y t . О чем свидетельствует знак и величина коэффициента корреляции r xy ?
Таблица 6.5.

Уровень безработицы, U t 2) оценить каждую модель через среднюю относительную ошибку аппроксимации и F-критерий Фишера;
3) выбрать лучшее уравнение регрессии и дать его обоснование (линейную модель тоже учитывать).

Решение задач по эконометрике. Задача №23

Определите вид зависимости (если она существует) среди данных, представленных в таблице. Подберите для её описания наиболее адекватную модель.
При ответе на задание, придерживайтесь следующего алгоритма:
1) Постройте поле корреляции результата и фактора и сформулируйте гипотезу о форме связи.
2) Определите параметры уравнений парной линейной регрессии и дайте интерпретацию коэффициента регрессии b . Рассчитайте линейный коэффициент корреляции и поясните его смысл. Определите коэффициент детерминации и дайте его интерпретацию.
3) С вероятностью 0.95 оцените статистическую значимость коэффициента регрессии b и уравнения регрессии в целом.
4) С вероятностью 0.95 постройте доверительный интервал ожидаемого значения результативного признака, если факторный признак увеличится на 5% от своего среднего значения.
5) На основе данных таблицы, поля корреляции выберете адекватное уравнение регрессии;
6) Найдите с помощью метода наименьших квадратов параметры уравнения регрессии, проведите оценку существенности связи. Оцените тесноту корреляционной зависимости, оцените существенность коэффициента корреляции с помощью критерия Фишера. Сделайте вывод о полученных результатах, определите эластичность модели и сделайте прогноз y t при увеличении среднего значения х на 5%, 10%, при уменьшении среднего значения х на 5%.
Сделайте краткие выводы о полученных значениях и о модели в целом.
Данные бюджетного обследования 10 случайных образом отобранных семей.

Номер семьи

Реальный доход семьи (т.руб.)

Реальный расход семьи на продовольственные товары (т.руб.)

Решение задач по эконометрике. Задача №24

Исследователи, проанализировав деятельность 10 фирм, получили следующие данные зависимости объема выпуска продукции (y) от количества рабочих (х1) и стоимости основных фондов (тыс.руб.) (х2)

Требуется:
1. Определить парные коэффициенты корреляции. Сделать вывод.
2. Построить уравнение множественной регрессии в стандартизированном масштабе и естественной форме. Сделать экономический вывод.
3. Определить множественный коэффициент корреляции. Сделать вывод.
4. Найти множественный коэффициент детерминации. Сделать вывод.
5. Определить статистическую значимость уравнения с помощью F-критерия. Сделать вывод.
6. Найти прогнозное значение объема продукции, при условии, что количество рабочих составит 10 человек, а стоимость основных фондов 30 тыс.руб. Ошибка прогноза равна 3,78. Провести точечный и интервальный прогноз. Сделать вывод.

Решение задач по эконометрике. Задача №25

Имеется гипотетическая модель экономики:
C t = a 1 +b 11 Y t +b 12 Y t + ε 1 ,
J t = a 2 +b 21 Y t-1 + ε 2 ,
T t = a 3 + b 31 Y t + ε 3 ,
G t = C t + Y t ,
где: C t - совокупное потребление в период t;
Y t - совокупный доход в период t;
J t - инвестиции в период t;
T t - налоги в период t;
G t - государственные доходы в период t.
1. Используя необходимое и достаточное условие идентификации, определить, идентифицировано ли каждое уравнение модели.
2. Определите тип модели.
3. Определите метод оценки параметров модели.
4. Опишите последовательность действий при использовании указанного метода.
5. Результаты оформите в виде пояснительной записки.

Решение задач по эконометрике. Задача №26

В выборке представлены данные о цене (x, у.д.е.) и количестве (y, у.е.) данного блага, приобретаемого домохозяйствами в течение года:

1) Найти линейный коэффициент корреляции. Сделать вывод.
2) Найти коэффициент детерминации. Сделать вывод.
3) Найти МНК-оценки параметров уравнения парной линейной регрессии вида y = β 0 + β 1 x + ε. Пояснить экономический смысл полученных результатов.
4) Проверить значимость коэффициента детерминации при уровне значимости 0,05. Сделать вывод.
5) Проверить значимость оценок параметров уравнения регрессии при уровне значимости 0,05. Сделать вывод.
6) Найти предсказание для x = 30 при доверительной вероятности 0,95 и определить остаток e 5 . Сделать вывод.
7) Найти доверительные интервалы для условного среднего M и индивидуального значения зависимой переменной y * x для x = 9.0. Сделать вывод.

Решение задач по эконометрике. Задача №27

В табл. представлены результаты наблюдений за x 1 , x 2 и y:

1) Найти МНК-оценки параметров уравнения множественной линейной регрессии вида y = β 0 + β 1 x 1 + β 2 x 2 + ε. Пояснить смысл полученных результатов.
2) Проверить значимость оценок параметров уравнения регрессии при уровне значимости 0,05. Сделать выводы.
3) Найти доверительные интервалы для параметров уравнения регрессии при доверительной вероятности 0,95. Пояснить смысл полученных результатов.
4) Найти коэффициент детерминации. Сделать вывод.
5) Проверить значимость уравнения регрессии (коэффициента детерминации) при уровне значимости 0,05. Сделать вывод.
6) Проверить наличие гомоскедастичности при уровне значимости 0,05 (с помощью теста ранговой корреляции Спирмена). Сделать вывод.
7) Проверить наличие автокорреляции при уровне значимости 0,05 (с помощью теста Дарбина-Уотсона). Сделать вывод.

Решение задач по эконометрике. Задача №28

По предприятию имеются данные за 3 года в поквартальном разрезе об уровне производительности труда (y, в тыс.$ на одного работника) и доле активной части основных фондов (x, в %):

Постройте модель регрессии с включением в неё как отдельной независимой переменной фактора времени t. Поясните смысл коэффициентов регрессии. Оцените автокорреляцию в остатках. Дайте прогноз на первый квартал четвертого года.

Гладилин А.В. Эконометрика: учебное пособие. - М.: КНОРУС.
Приходько А.И. Практикум по эконометрике. Регрессионный анализ средствами Excel. - изд. Феникс
Просветов Г.И. Эконометрика. Задачи и решения: Учебно-методическое пособие. - М.: РДЛ.
Тихомиров Н.П., Дорохина Е.Ю. Экономтерика: Учебник. - М.: Экзамен.
Полянский Ю.Н. и др. Эконометрика. Решение задач с использованием электронных таблиц Microsoft Excel. Практикум. - М.: АЭБ МВД России
Другие учебные пособия и практикумы для решения задач по эконометрике.
Использование приведенных в разделе материалов без разрешения администрации сайта запрещено

Пришлите условия задач для оценки стоимости их решения

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме.
Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается матрица парных коэффициентов корреляции , затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x 1 , x 2 ,…,x m для дальнейшего построения уравнения регрессии.

Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности . В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы , det(X T X) = 0 , т. е. матрица (X T X) вырождена, а значит, не существует обратной матрицы. Матрица (X T X) -1 используется в построении МНК-оценок. Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

К каким трудностям приводит мультиколлинеарность факторов, включенных в модель, и как они могут быть разрешены?

Мультиколлинеарность может привести к нежелательным последствиям:

  1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
  2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
  3. становится невозможным определить изолированное влияние факторов на результативный показатель.

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (X T X) близка к вырожденной, т. е. det(X T X) ≈ 0.
Матрица (X T X) -1 будет плохо обусловленной, что приводит к неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

  • увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;
  • уменьшение t -статистик коэффициентов приводит к неверным выводам о значимости факторов;
  • неустойчивость МНК-оценок и их дисперсий.

Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X). Также исследуют значения парных коэффициентов корреляции. Если же определитель матрицы межфакторной корреляции близок к единице, то мультколлинеарности нет.

Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1...xm) снизится несущественно).

С помощью какой меры невозможно избавиться от мультиколлинеарности?
a) увеличение объема выборки;
b) исключения переменных высококоррелированных с остальными;
c) изменение спецификации модели;
d) преобразование случайной составляющей.

Парные (линейные) и частные коэффициенты корреляции

Тесноту связи, например между переменными x и y по выборке значений (x i , y i), оценивает линейный коэффициент парной корреляции: , (3.4.1)
где и – средние значения, S x и S y – стандартные отклонения соответствующих выборок.

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между и к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом увеличивается значение y), отрицательное значение – связь обратная (с ростом x значение уменьшается).
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с факторными признаками x 1 , x 2 ,…,x m , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y, а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид
.
Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции r xjxi >0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.
Значимость парных коэффициентов корреляции проверяют по t- критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H 0: ρ = 0. Затем задаются параметры: уровень значимости α и число степеней свободы v = n-2. Используя эти параметры, по таблице критических точек распределения Стьюдента находят , а по имеющимся данным вычисляют наблюдаемое значение критерия:
, (3.4.2)
где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1- α, если t Набл по модулю будет больше, чем t крит.
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Частный коэффициент корреляции оценивает тесноту связи между двумя переменными при фиксированном значении остальных факторов. Если вычисляется, например, r yx 1| x2 (частный коэффициент корреляции между y и x 1 при фиксированном влиянии x 2), это означает, что определяется количественная мера линейной зависимости между y и x 1 , которая будет иметь место, если устранить влияние x 2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.
Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции r yx 1| x2 получится меньше, чем соответствующий парный коэффициент r yx 1 , значит, взаимосвязь признаков y и x 1 в некоторой степени обусловлена воздействием на них фиксируемой переменной x 2 . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x 2 ослабляет своим воздействием связь y и x 1 .
Частный коэффициент корреляции между двумя переменными (y и x 2) при исключении влияния одного фактора (x 1) можно вычислить по следующей формуле:
. (3.4.3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x 2
;
при фиксированном x 3
.
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным v = n – l -2, где l – число фиксируемых факторов.

Пошаговая регрессия

Отбор факторов x 1 , x 2 , …,x m , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели.
При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы x i и x j признаются коллинеарными, если r xjxi >0.7. В модель включают лишь один из взаимосвязанных факторов. Если среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y .

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

Пример №1 . По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Требуется:

  1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
  2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
  3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
  4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
  5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
  6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
  7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
  8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
  9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
  10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
  12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
  13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Решение проводим с помощью калькулятора . Далее приводится ход решения п.13.
Матрица парных коэффициентов корреляции R:

- y x 1 x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

При наличии мультиколлинеарности определитель корреляционной матрицы близок к нулю. Для нашего примера: det = 0.00081158 , что свидетельствует о наличии сильной мультиколлинеарности.
Для отбора наиболее значимых факторов x i учитываются следующие условия:
- связь между результативным признаком и факторным должна быть выше межфакторной связи;
- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции r xjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае r x 1 x 2 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |r yxi | 0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для r yx 1 по формуле:

где m = 1 - количество факторов в уравнении регрессии.


t крит (n-m-1;α/2) = (18;0.025) = 2.101
Поскольку t набл >
Рассчитаем наблюдаемые значения t-статистики для r yx 2 по формуле:

Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значимю
Таким образом, связь между (y и x x 1), (y и x x 2) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x 2 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
Тестирование и устранение мультиколлинеарности .
Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
1. Всех факторов (χ 2 - хи-квадрат).
2. Каждого фактора с остальными (критерий Фишера).
3. Каждой пары факторов (критерий Стьюдента).

Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий "хи-квадрат").
Формула для расчета значения статистики Фаррара-Глоубера:
χ 2 = -ln(det[R])
где m = 2 - количество факторов, n = 20 - количество наблюдений, det[R] - определитель матрицы парных коэффициентов корреляции R.
Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ 2 > χ табл 2 , то в векторе факторов есть присутствует мультиколлинеарность.
χ табл 2 (1;0.05) = 3.84146

Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).
Определяем обратную матрицу D = R -1:

D =
55,365 -2,256 -52,656
-2,256 22,386 -19,642
-52,656 -19,642 72,373

Вычисляем F-критерии Фишера:

где d kk - диагональные элементы матрицы.
Рассчитанные значения критериев сравниваются с табличными при v 1 =n-m и v 2 =m-1 степенях свободы и уровне значимости α. Если F k > F Табл, то k-я переменная мультиколлинеарна с другими.
v 1 =20-2 = 18; v 2 =2-1 = 1. F Табл (18;1) = 248

Поскольку F 1 > F табл, то переменная y мультиколлинеарна с другими.

Поскольку F 2 > F табл, то переменная x 1 мультиколлинеарна с другими.

Поскольку F 3 > F табл, то переменная x 2 мультиколлинеарна с другими.

Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
Частные коэффициенты корреляции .
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x i) при условии, что влияние на них остальных факторов (x j) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.


Теснота связи низкая.
Определим значимость коэффициента корреляции r yx 1 /x 2 .


где k = 1 - число фиксируемых факторов.

По таблице Стьюдента находим Tтабл
t крит (n-k-2;α/2) = (17;0.025) = 2.11
Поскольку t набл Как видим, связь y и x 1 при условии, что x 2 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x 1 остается нецелесообразным.


Теснота связи сильная
Определим значимость коэффициента корреляции r yx 2 /x 1 .
Для этого рассчитаем наблюдаемые значения t-статистики по формуле:


Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Как видим, связь y и x 2 при условии, что x 1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x 2 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x 1 , x 2 .

Пример №2 . По 30 наблюдениям

  • ID: 51823
  • 17 страниц

Список литературы

Ситуационная (практическая) задача № 1

По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

Номер предприятия

Номер предприятия

Требуется:

1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y.

2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.

4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.

6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.

8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.

9. Найти коэффициенты парной и частной корреляции. Проанализировать их.

10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.

12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.

13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию ч2. Сравнить полученные результаты.

Ситуационная (практическая) задача № 2

Имеются помесячные данные по объему платных услуг населению в 2010 г.

Объем платных услуг, млн. руб.

сентябрь

Требуется:

1. Проверить гипотезу о наличии тренда во временном ряде.

3. Оценить параметры линейной трендовой модели, проверить статистическую значимость соответствующего уравнения регрессии с надежностью 0,99.

4. Дать точечный и интервальный прогноз объема платных услуг на февраль 2011 г. с надежностью 0,99.

Тестовые задания

Необходимо из предложенных вариантов ответа на вопрос теста выбрать единственно верный, по Вашему мнению.

1.Остаток в i-м наблюдении – это:

a) разница между значением объясняющей переменной в i-м наблюдении и прогнозным значением этой переменной;

b) разница между значением переменной Y в i-м наблюдении и прогнозным значением этой переменной, полученным по выборочной линии регрессии;

c) разница между значением переменной Y в i-м наблюдении и прогнозным значением этой переменной, полученным по истинной линии регрессии;

d) разница между прогнозным значением зависимой переменной, полученным по выборочной линии регрессии и значением объясняющей переменной в этом наблюдении.

2. Дано регрессионное уравнение Y = 10 + 0.5X. Чему равно прогнозное значение переменной Y, если Х = 10:

3. При анализе тесноты линейной корреляционной связи между двумя переменными получен коэффициент парной линейной корреляции, равный – 1. Это означает, что:

a) линейная корреляционная связь отсутствует;

b) между переменными существует нелинейная связь;

c) парный коэффициент корреляции не может принять такое значение;

d) между переменными существует точная обратная линейная зависимость;

4. С помощью какой меры невозможно избавиться от мультиколлинеарности?

a) увеличение объема выборки;

b) исключения переменных высококоррелированных с остальными;

c) изменение спецификации модели;

d) преобразование случайной составляющей.

5. Какое из приведенных чисел может быть значением коэффициента множественной детерминации:

6. Если значение статистики Дарбина-Уотсона равно 0, это говорит

а) о наличии положительной автокорреляции остатков в модели;

б) об отсутствии зависимости между рассматриваемыми показателями;

в) об отсутствии тренда во временном ряде;

г) о статистической незначимости коэффициентов уравнения.

7. К каким последствиям приводит наличие гетероскедастичности в остатках:

a) МНК-оценки коэффициентов уже не обладают меньшей дисперсией, но остаются несмещенными и линейными;

b) МНК-оценки коэффициентов остаются наилучшими линейными несмещенными оценками, проблема только в стандартных ошибках, их надо корректировать.

c) МНК-оценки коэффициентов уже не обладают меньшей дисперсией, но остаются несмещенными и линейными; МНК – стандартные ошибки правильны (состоятельны), тестами, в которых они участвуют, пользоваться можно.

d) МНК-оценки коэффициентов становятся нелинейными.

8. Периодические колебания, возникающие под влиянием смены времени года называются…

a) хронологическими;

b) сезонными;

c) тенденцией;

d) случайными.

9. Известны помесячные данные за полгода относительно прибыли некоторой компании (тыс. руб.): 100, 110, 98, 90, 100, 110. Медиана данного ряда равна

По 20 предприятиям региона (см. табл.) изучается зависимость выработки продукции на одного работника У (тыс. руб.) от ввода в действие новых основных фондов Х1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих Х2 (%).

Требуется:

  • 1. Построить диаграммы рассеяния выработки продукции на одного работника У (тыс. руб.) в зависимости от ввода в действие новых основных фондов Х1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих Х2 (%) и определить форму связи между результирующим показателем (У) и каждым их факторов (Х1 и Х2).
  • 2. Рассчитать основные статистические характеристики по каждому показателю и найти коэффициенты вариации. Сделать выводы об однородности совокупности по данным переменным.
  • 3. Рассчитать матрицу парных и частных коэффициентов корреляции и сделать выводы о целесообразности включения факторов Х1 и Х2 в модель.
  • 4. Оценить с помощью МНК параметры линейного регрессионного уравнения У от Х1 и Х2 (применив пакет анализа).
  • 5. Рассчитать значение коэффициента детерминации, коэффициенты эластичности и среднюю ошибку аппроксимации и интерпретировать их.
  • 6. Проверить значимость полученного уравнения регрессии на уровне 0,05. Найти 95% доверительные интервалы для значимых коэффициентов регрессии.
  • 7. Построить прогноз Y* по уравнению регрессии, приняв прогнозные значения Х1 и Х2 равными 80% от их максимального значения.

Вариант 9

предприятия

  • 2. Так как коэффициент вариации по каждой переменной не превышает 33 % (коэффициент вариации Y равен 24,957; коэффициент вариации X1 равен 30,528; коэффициент вариации X2 равен 29,783), то можно сделать вывод, что по всем переменным наблюдается однородность данных и по ним можно проводить анализ.
  • 3. Исходя из рассчитанной матрицы парных и частных коэффициентов корреляции (приведены в приложении), можно сделать вывод о том, что ввод в действие новых основных фондов Х1 и удельный вес рабочих высокой квалификации в общей численности рабочих Х2 тесно связаны с выработки продукции на одного работника У, а также Х1 и Х2 тесно связаны между собой, следовательно наблюдается явление мультиколлинеарности, поэтому оба этих фактора в модель включать нельзя.
  • 4. Применив пакет анализа, получилось следующее уравнение модели:

у=1,864+0,906*х1+0,098*х2; график остатков по обоим переменным показывает отсутствие зависимости в остатках.

5. По данной модели коэффициент детерминации равен 0,952, следовательно, в данной модели существует весьма тесная связь с результатом (объясняет 95,2 % разброса Y); коэффициенты эластичности (Эх1=1,403 и Эх2=0,041) показывают, что выработка продукции на одного работника увеличивается в среднем на 1,40 % при увеличении ввода действия новых основных фондов на 1 % и увеличивается на 0,04 % при увеличении удельного веса рабочих высокой квалификации в общей численности рабочих на 1 %. Следовательно, наибольшее влияние на выработку продукции на одного работника оказывает действие новых основных фондов.

Качество модели, исходя из относительных отклонений по каждому наблюдению, признается хорошим, так как средняя ошибка аппроксимации не превышает 10 %.

6. Так как, F-критерий Фишера по модели равен 169,411, что больше табличного значения (4,41), то модель является значимой, то есть, вероятность случайно получить такое значение F-критерия не превышает допустимый уровень значимости 5 %.

По построенной модели оказался незначимым коэффициент при Х2 (удельный вес рабочих высокой квалификации в общей численности рабочих), поскольку этот фактор является неинформативным, поэтому для построения более качественной модели необходимо исключить этот фактор.

После исключения фактора Х2, уравнение модели приняло вид:

у=1,037+1,393*х.

Коэффициент детерминации при этом равен 0,934 и F-критерий Фишера равен 271,429.

Прогноз по данной модели: если взять 80 % от максимального значения Х1 (9,5), то прогнозное значение выработки продукции на одного работника составляет 11,625 тысяч рублей.



Поделиться