<<
>>

5.4. Свойства коэффициентов множественной регрессии

Как и в случае парного регрессионного анализа, коэффициенты регрессии должны рассматриваться как случайные переменные специального вида, слу­чайные компоненты которых обусловлены наличием в модели случайного чле­на. Каждый коэффициент регрессии вычисляется как функция значений у и независимых переменных в выборке, а у в свою очередь определяется незави­симыми переменными и случайным членом. Отсюда следует, что коэффици­енты регрессии действительно определяются значениями независимых пере­менных и случайным членом, а их свойства существенно зависят от свойств последнего.

Мы продолжаем считать, что выполняются условия Гаусса—Маркова, а имен­но: 1) математическое ожидание и в любом наблюдении равно нулю; 2) теоре­тическая дисперсия его распределения одинакова для всех наблюдений; 3) те­оретическая ковариация его значений в любых двух наблюдениях равняется нулю; 4) распределение и независимо от распределения любой объясняющей пере­менной. Первые три условия идентичны условиям для парного регрессионного анализа, а четвертое условие является обобщением своего аналога. На данный момент мы примем усиленный вариант четвертого условия, допустив, что не­зависимые переменные являются нестохастическими.

т Речь идет о доле труда в США. (Прим. ред.)

Существуют еще два практических требования. Во-первых, нужно иметь до­статочное количество данных для проведения линии регрессии, что означает наличие стольких (независимых) наблюдений, сколько параметров необходи­мо оценить. Во-вторых, как мы увидим далее в этом разделе, между независи­мыми переменными не должно существовать строгой линейной зависимости.

Несмещенность

Мы покажем, что Ьх является несмещенной оценкой р, для случая с двумя объясняющими переменными. Доказательство можно легко обобщить, исполь­зуя матричную алгебру для любого числа объясняющих переменных. Как видно из уравнения (5.12), величина Ьх является функцией от х,, х2 и у в свою оче­редь у определяется пох,, х2 и и. Следовательно, величина Ьх фактически зави- хит от значений хр х2 и и в выборке (поняв суть преобразований, можно опу­стить детали математических выкладок):

= Соу(х1,у)Уаг(х2)-Соу(х2,у)Соу(х12) = Уаг(х1)Уаг(х2)-{Соу(х12)}2

= -^{Соу^Ла + + р2х2 + и})Уаг(х2) -

~Соу(х2, {а + Р1Х1 + р2х2 + и})Со у(хь х2)} =

= I {[^Уат(х{) + Р2Соу(Х| , х2 ) + Соу(х! , и)} Уаг(х2 ) - а

-[р!Соу(хь х2) + р2Уаг(х2) + Соу(х2, и)]Соу(хь х2 )} =

= I {Р1А + Соу(х1? и)Уаг(х2) - Соу(х2, и)Соу(хь х2)} = а

= Р, +1{Соу(х1,^)Уаг(х2)-Соу(х2,^)Соу(х12)}, (5.33)

где А равно Уаг (х^ Уаг (х2) — {Соу (хр х2)}2. Отсюда величина Ь{ имеет две со­ставляющие: истинное значение Р, и составляющую ошибки. Перейдя к мате­матическому ожиданию, получим:

Е(Ьх) = Р! + 1{Уаг(х2)£[0>у(х1,и)]-Соу(х19х2)Е[Соу(х2,и)]} = Р1? (5.34)

а

при допущении, что выполняется четвертое условие Гаусса—Маркова.

Точность коэффициентов множественной регрессии

В теореме Гаусса—Маркова для множественного регрессионного анализа до­казывается, что, как и для парной регрессии, обычный метод наименьших квад­ратов (МНК) дает наиболее эффективные линейные оценки в том смысле, что на основе той же самой выборочной информации невозможно найти другие не­смещенные оценки с меньшими дисперсиями при выполнении условий Га­усса—Маркова. Мы не будем доказывать эту теорему, но исследуем факторы, регулирующие возможную точность коэффициентов регрессии. В общем слу­чае можно сказать, что коэффициенты регрессии, скорее всего, являются более точными:

1) чем больше число наблюдений в выборке;

2) чем больше дисперсия выборки объясняющих переменных;

3) чем меньше теоретическая дисперсия случайного члена;

4) чем меньше связаны между собой объясняющие переменные.

Первые три из желательных условий повторяют то, на чем мы уже останав­ливались в случае парного регрессионного анализа. Лишь четвертое условие яв­ляется новым. Сначала мы рассмотрим случай с двумя независимыми перемен­ными и затем перейдем к более общему случаю.

Две независимых переменных

Если истинная зависимость имеет вид:

у = а + р^ + р2х2 + и, (5.35)

и вы получили уравнение регрессии

у = а + Ьххх + Ь^с2, (5.36)

использовав необходимые данные, то теоретическая дисперсия вероятност­ного распределения для Ьх будет описываться выражением:

= (5.37)

где с„2 — теоретическая дисперсия величины и. Аналогичное выражение можно получить для теоретической дисперсии величины Ъг, заменив Уаг (х^ на Уаг (х2).

Из уравнения (5.37) можно видеть, что, как и в случае парного регрессион­ного анализа, желательно, чтобы величины п и Уаг (хх) были большими, а ве­личина си2 — малой. Однако теперь мы получили еще и член (1 - гД Х1), и впол­не очевидно, что желательно иметь слабую корреляцию между х, и х2.

Этому легко дать интуитивное объяснение. Предположим, что истинная за­висимость имеет вид:

у = 2 + Ъхх2 + и. (5.38)

Предположим, что между хх и х2 существует нестрогая линейная зависи­мость:

х2 = 2х1 — 1, (5.39)

и допустим, что величина хх увеличивается на одну единицу в каждом наблю­дении. Тогда х2 увеличится на две единицы, а у — на пять единиц, как показа­но, например, в табл. 5.2.

Таблица 5.2

Приблизительное значение Приблизительное значение

X, х* У приращения приращения Х1 Х2 приращения У
10 19 51 1 2 5
11 21 56 1 2 5
12 23 61 1 2 5
13 25 66 1 2 5
14 27 71 1 2 5
15 29 76 1 2 5

При рассмотрении этих данных можно прийти к любому из следующих вы­водов:

1) величина у определяется уравнением (5.38) (правильное утвержде­ние);

2) величина х2 не имеет отношения к данному случаю, и величина у определяется зависимостью:

у = \ + 5хх + и;

3) величина ^ не имеет отношения к данному случаю, и величина у оп­ределяется зависимостью:

у = 3,5 + 2,5х2 + и.

В действительности этими возможностями дело не ограничивается. Любая зависимость, которая является средним взвешенным условий (2) и (3), также будет соответствовать описанным данным. Условие (1) можно рассматривать как среднее взвешенное условий (2) с коэффициентом 0,6 и (3) с коэффициен­том 0,4.

При использовании регрессионного анализа или любого другого метода при­менительно к данному случаю трудно провести различие между этими возмож­ностями, и полученные оценки будут очень чувствительными по отношению к случайному члену и могут содержать значительные ошибки. Дисперсии коэф­фициентов регрессии будут большими, что, очевидно, является другим спосо­бом выражения того же самого.

Если истинная зависимость (5.39) была строгой, то при оценивании пред­ставляется совершенно невозможным провести различие между всеми вероят­ными зависимостями, поскольку каждая из них будет одинаково хорошо соот­ветствовать данным. Вы даже не сможете вычислить коэффициенты регрессии, так как и числитель и знаменатель уравнения (5.12) будут равны нулю.

Если между X! и х2 существует нестрогая линейная зависимость, то коэффи­циент корреляции гХ{^2 будет близким к единице, если зависимость положи­тельна, и к минус единице, если зависимость отрицательна, и в обоих случа­ях г* j2 будет близким к единице. В результате знаменатель второго члена в урав­нении (5.37) будет близок к нулю, а теоретические дисперсии bx и Ъ2 будут большими числами. В предельном случае наличия строгой линейной зависи­мости дисперсии будут стремиться к бесконечности.

Отметим, что отсюда не следует автоматически, что величины Ьх и Ь2 будут иметь большие теоретические дисперсии, если междуX, их2 существует нестрогая линейная зависимость. Дисперсии зависят также от л и aj, как и в случае пар­ного регрессионного анализа. Если п велико, а о2 — мало, то теоретические дис­персии Ьх и Ь2 могут быть небольшими, несмотря на нестрогую линейную зави­симость. Если имеется большой объем информации (п велико), а случайный фак­тор является относительно незначимым (а2 мало), то все еще можно разграни­чить влияние х, и х2 на величину у.

Общий случай

Мы не будем выводить выражения для дисперсий коэффициентов регрессии в общем случае. Подобно выражениям для самих коэффициентов, их лучше всего рассчитывать с помощью матричной алгебры.

Вместо этого будет показан один важный момент на основе эксперимента по методу Монте-Карло. Согласно условию (4), желательно, чтобы независи­мые переменные не были тесно связаны. Чтобы исследовать это, оценим мно­жественную регрессию три раза. Во-первых, если независимые переменные не слишком тесно связаны, то результаты оценивания регрессии будут надежны­ми. Во-вторых, при более тесной зависимости между переменными результаты регрессии будут содержать ошибки. И в-третьих, при той же самой тесной кор­реляции между независимыми переменными, но при меньшей дисперсии слу­чайного члена результаты оценивания регрессии значительно улучшаются.

Это показывает, что тесная корреляция между независимыми переменными может привести к неудовлетворительным результатам, но это не происходит ав­томатически. Это зависит также от дисперсии случайного члена.

Предположим, что заработная плата>> в некоторой стране определяется чис­лом лет обучения (5), стажем работы (А"), возрастом (>1), а также случаем. Ба­зовая заработная плата составляет 10000, к которым добавляется 1500 за каж­дый год обучения сверх минимальных 10 лет, 500 — за каждый год работы и 25 — за каждый прожитый год. Кроме того, существует случайный фактор и:

у = 10 000 + 1500 (5 - 10) + 500* +25Л + и. (5.40)

В результате упрощения это уравнение проводится к виду:

у = -5000 + 1500S + 500*+ 25А + и. (5.41)

Первые четыре колонки табл. 5.3 представляют данные воображаемой выбор­ки из 20 индивидов. Цифры для срока обучения, стажа работы и возраста были взяты произвольно. Значения и определялись на основе выборки из 20 нор­мально распределенных случайных чисел с нулевым математическим ожида- ниєм и единичной дисперсией, которые умножались на 2000. Полученные в результате из уравнения (5.41) значения у показаны в пятой колонке табл. 5.3. Допустив, что обучение начинается с 6 лет, можно получить неравенство:

Х»-5-5 X' У' У" 1 10 20 45 -1740 19385 30 28 23385 24951 2 10 5 23 1880 14955 8 6 15455 13763 3 10 19 36 760 21160 21 17 20160 19476 4 11 15 50 1300 21550 34 28 28050 26880 5 11 16 42 1880 22430 26 21 24930 23238 6 11 8 30 640 16890 14 10 17890 17314 7 11 4 21 3520 17545 5 4 17545 14377 8 12 10 34 -3540 15310 17 15 17810 20996 9 12 8 27 1720 19395 10 8 19395 17847 10 12 18 38 2680 25630 21 19 26130 23710 11 13 6 25 -5220 12905 7 6 12905 17603 12 13 10 46 2840 23490 28 25 30990 28434 13 14 10 38 -1100 20850 19 16 23850 24840 14 14 2 22 -340 17210 3 2 17210 17516 15 15 8 32 1000 23300 12 9 23800 22900 16 16 5 49 20 22745 28 23 31745 31727 17 16 4 28 -780 20920 7 6 21920 22622 18 17 7 33 3140 27965 11 8 28465 25639 19 18 3 27 -380 23795 4 3 23795 24137 20 19 3 32 40 25840 8 6 27340 27304

В табл. 5.3 показана величина (А - 5— 5), и можно видеть, что данные для X соответствуют ей, но зависимость между А, 5 и X является довольно слабой. Многие из индивидов, вполне очевидно, посвящают часть своего трудоспособ­ного возраста другим занятиям.

Оценив регрессию между у, Б, X и А, получаем следующий результат:

у= -4063+ 14095+ 48IX + 50Л. (5.43)

(с.о.) (4140) (280) (175) (88)

Эксперимент был повторен с теми же данными для ЯиЛи такими же значени­ями и, но с другим набором данных для Х9 который значительно лучше согла­сован с показателем (А — 5— 5). Эти данные обозначены в табл. 5.3 какХ\ а ре­зультирующие значения у обозначены как у'. Так как наше неравенство сейчас в каждом случае почти превращается в равенство, то можно наблюдать нестро­гую линейную зависимость между независимыми переменными. Оценивая рег­рессию между у \ 5, Х'иА, теперь получаем:

>>= -7524 +7815-207Г+ 664Л. (5.44)

(с.о.) (4204) (529) (538) (476)

Результаты оценки регрессии теперь действительно весьма плохи.

Наконец, эксперимент был повторен еще раз при сохранении тех же самых значений 5, А и X', но с получением значений и путем умножения случайных чисел на 200 вместо 2000. Результирующие значения у показаны в табл. 5.3 как у\ Оценивая регрессию между у, 5, X' и А, получаем:

у = -5252 + 14285+ 429Х + 89А. (5.45)

(с.о.) (420) (53) (54) (48)

За исключением коэффициента при А, эти результаты являются вполне удов­летворительными, несмотря на существование нестрогой линейной зависимо­сти между независимыми переменными.

Конечно, нельзя придавать слишком большое значение результатам един­ственного набора экспериментов. Каждый из трех вариантов расчетов был вы­полнен еще 9 раз с использованием тех же данных для 5, А, ХиХ', но при раз­личных наборах случайных чисел для получения величины и. Результаты экспе­риментов обобщаются в табл. 5.4.

Таблица 5.4
Первый вариант (слабая связь) Второй вариант (тесная связь) Третий вариант (тесная связь, низкий
<< | >>

Еще по теме 5.4. Свойства коэффициентов множественной регрессии:

  1. 3.3. Свойства коэффициентов множественной регрессии
  2. 3.2. Вывод и интерпретация коэффициентов множественной регрессии
  3. 5.2. Вывод и интерпретация коэффициентов множественной регрессии
  4. 8.2. Свойства оценок коэффициентов регрессии по МНК в случае конечной выборки
  5. 3. СВОЙСТВА КОЭФФИЦИЕНТОВ РЕГРЕССИИ И ПРОВЕРКА ГИПОТЕ
  6. 2.СВОЙСТВА КОЭФФИЦИЕНТОВ РЕГРЕССИИ И ПРОВЕРКА ГИПОТЕЗ
  7. 5.3. Множественная регрессия в нелинейных моделях
  8. 2.3. Случайные составляющие коэффициентов регрессии
  9. 3.1. Случайные составляющие коэффициентов регрессии
  10. Несмещенность коэффициентов регрессии
  11. 3.5. Точность коэффициентов регрессии
  12. 8.3. Асимптотические свойства оценок регрессии поМНК
  13. 2.6. Точность коэффициентов регрессии
  14. 3.4. Несмещенность коэффициентов регрессии
  15. 3.7. Проверка гипотез, относящихся к коэффициентам регрессии
  16. 2.8. Проверка гипотез, относящихся к коэффициентам регрессии
  17. 12. Взаимосвязь между Г-критерием общего качества регрессии и критерием для коэффициента наклона в парном регрессионном анализе