<<
>>

6.2. Влияние отсутствия в уравнении переменной, которая должна быть в него включена

Проблема смещения

Предположим, что переменная У зависит от двух переменных ЛГ2 иХ3в со­ответствии с соотношением

У= Р1 + 02^2 + Р3ЛГ3 + И, (6.1)

однако вы не уверены в важности переменной Ху Считая, что модель должна выглядеть как

У^ + р^ + г/, (6.2)

вы оцениваете регрессию

Последствия спецификации переменных

Истинная модель

(6.3)

Ь2=м--------------------------

(6.4)
вычисляете Ь2 по формуле

Я*-*)1

1=1

вместо правильного выражения для регрессии с двумя объясняющими пере­менными.

По определению, Ь2 является несмещенной оценкой величины Р2 в том и только том случае, если Е(Ь2) равняется |32. Практически, если выполня­ется (6.1), то

м________________

1=1
(6.5)
1=1

Х(*2/~Х2)2 1=1

Мы говорим, что оценка Ь2 подвержена проблеме смещения, вызванного от­сутствием объясняющей переменной.

Сначала мы дадим интуитивное объясне­ние (6.5), а затем формальное доказательство.

Если опустить Хг в регрессионной модели, то переменная Х2 будет играть .двойную роль, как это показано на рис.

6.1. Она будет отражать свое прямое влияние и заменять Х3 в описании ее влияния. Данное кажущееся опосредо­ванное влияние величины Х2 на Убудет зависеть от двух факторов: от видимой способности Х2 имитировать поведение Хг и от влияния величины Хъ на У.

Кажущаяся способность переменной Х2 объяснять поведение Х} определя­ется коэффициентом наклона к в псевдорегрессии

Х3=я + кХ2.
Непосредственный эффект переменной Х2 при постоянной Х3
Эффект X,
Рисунок 6.1
Кажущийся эффект переменной Х2, действующей в \ \ качестве заменителя

\\ ДЛЯ Хд

(6.6)

Величина А, естественно, рассчитывается при помощи обычной формулы для парной регрессии

(6.7)

V/=1

Влияние величины Х3 на У определяется коэффициентом Р3. Таким обра­зом, эффект имитации влияния переменной Х3 может быть записан как

р3 [(X (^2/- Х2) (Ху - Хъ ))/Х (Хц ~ Х2 )2 ] • Прямое влияние величины Х2 на

А =
1=1

Кописывается с помощью коэффициента Р2. Таким образом, при оценивании регрессии Уна Х2 без включения в нее переменной Х3 коэффициент при Хг определяется формулой

+ Ошибка выборки.
(6.8)
Р2 + Рз

- \2

^(ХЬ2)(Х313) Г£{Хь2) Л /=1

При условии, что величины Х2 и Х3 не являются стохастическими, матема­тическим ожиданием оцениваемого коэффициента будет сумма первых двух членов этой формулы. Присутствие второго слагаемого предполагает, что ма­тематическое ожидание коэффициента будет отличаться от истинной величи­ны р2; другими словами, оценка будет смещенной.

Формальное доказательство соотношения (6.5) не представляет труда. Вы­полним ряд теоретических преобразований оценки Ь2, заменяя и У с по­мощью (6.1):

£(Х2/2)(Г;-Г) -- =

•'я

(=1

1(Х212)( [й +р2*2(. +Рз*3/ +"/]-[> +Р2*2 + Рз*3 + "] )

_ (=1

(=1

Р2Х(^- -*2)2 +РзХ(^2/-Щх* -Хг){щ-й)

/=1
1=1

1=1

;=1

£(Х»-Х2)(Х313) ^(Хь2){щ-й)

г=1
(6.9)
^ \2
- \2

= Р2 + Рз —

(=1

1=1

Если величины Х2 и Хъ являются нестохастическими, то при вычислении математического ожидания величины Ь2 первые два члена остаются неизмен­ными, а третий будет равен нулю.

Отсюда мы получаем формулу (6.5). По­скольку ^(Х212) должна быть положительной (за исключением случая, когда Х2 является одинаковой для всех наблюдений, в этом случае невозмож­но оценить регрессию), направление смещения будет зависеть от знака вели­чин Р3 и -^Рз!-^)' Заметим, что последнее выражение является, числителем выборочного коэффициента корреляции между Х2 и Х3, гх^х:

^ = I ;=1 (бл°)

> F

R-squared = Adj R-squared = Root MSE 540 147.36 0.0000 0.3543 0.3519 1.963 Model Residual 1135.67473 2069.30861 2

537 567.837363 3.85346109 Total 3204.98333 539 5.94616574 S Coef. Std. Err. t P>|t| [95% Conf. Interval] ASVABC .1328069 .0097389 13.64 0.000 .1136758 .151938 SM .1235071 .0330837 3.73 0.000 .0585178 .1884963 _cons 5.420733 .4930224 10.99 0.000 4.452244 6.389222 .regSASVABC Source SS df MS Number of obs = 540 Model Residual 1081.97059 2123.01275 1

538 1081.97059 3.94612035 F( 1,538) Prob > F R-squared 274.19 0.0000 0.3376 Total 3204.98333 539 5.94616574 Adj R-squared = Root MSE 0.3364 1.9865 S Coef. Std. Err. t p>ltl [95% Conf. Interval] ASVABC .148084 .0089431 16.56 0.000 .1305165 .1656516 _cons 6.066225 .4672261 12.98 0.000 5.148413 6.984036 . reg S SM Source SS df MS Number of obs = 540 Model Residual 419.086251 2785.89708 1

538 419.086251 5.17824736 F(1,538) Prob > F R-squared 80.93

0.0000

0.1308 Total 3204.98333 539 5.94616574 Adj R-squared = Root MSE 0.1291 2.2756 S Coef. Std. Err. t p>ltl [95% Conf. Interval] SM .3130793 .0348012 9.00 0.000 .2447165 .3814422 _cons 10.04688 .4147121 24.23 0.000 9.232226 10.86153

Если отсутствует 5М, то

X (ЛБУАВС - АБУАВС) (БЫ - ш)

£(Ь2) = Р2 + Рз^!—--------------------------------------------- ' (6Л2)

£ (ЛБУАВС - АБУАВС)

/=1

Коэффициент корреляции между ЛЛтаДС и положителен и равен 0,42. Следовательно, числитель в выражении смещения положителен, а знамена­тель положителен всегда (если только не равен нулю, однако в этом случае мы не можем оценивать регрессию). Разумно предположить, что величина р, по­ложительна, и тот факт, что ее оценка в первой регрессии действительно поло­жительна и высоко значима, дает вполне достаточное этому подтверждение. Следовательно, можно ожидать, что коэффициент при АБУАВС будет при от­сутствии переменной БМсмещен вверх, и можно видеть, что он действительно увеличился. Не вся разница, разумеется, должна быть отнесена на счет сме­щения. Частично она может быть обусловлена влиянием случайного члена, значения которого могут отклоняться в ту или иную сторону.

Аналогично, если в уравнении отсутствует АБУАВС, то

£ (АБУАВС - АБУАВС^БМ - Ш) = Р 3 + |32^ — • (6.13)

1=1

Поскольку р2, скорее всего, также положительно, то коэффициент при БМ в третьем уравнении должен быть также смещен вверх. Его оценка в третьем уравнении действительно оказалась выше, чем в первом.

В данном примере отсутствие одной из объясняющих переменных приво­дит к завышению оценки коэффициента при другой переменной. Однако ве­личина смещения может так же легко оказаться и отрицательной. Знак сме­щения зависит от знаков истинного значения коэффициента при пропущен­ной переменной и выборочной корреляции между включенной и пропущенной переменными, а эти знаки определяются природой исследуемой модели.

Нужно подчеркнуть, что проведенный выше анализ относится лишь к тому случаю, когда истинная модель является моделью множественной регрессии с двумя объясняющими переменными. Если объясняющих переменных боль­ше, чем две, то гораздо сложнее описать математически смещение, вызванное отсутствием объясняющей переменной. Тем не менее, может оказаться воз­можным сделать вывод о том, уменьшаются или увеличиваются, вообще гово­ря, коэффициенты при некоторых переменных в результате смещения.

фициент Я2 при наличии смещения, вызванного отсутствием объясняющей переменной

В разделе 3.5 говорилось о том, что в множественном регрессионном ана­лизе, вообще говоря, невозможно определить вклад каждой объясняющей пе­ременной в значение Я2, и сейчас мы можем показать, почему это так.

Обсудим вначале данный вопрос относительно рассмотренной выше мо­дели охвата обучением. В регрессии переменной 5 на АБУАВС, рассмотренной выше, Я2 равнялся 0,34. В регрессии только на БМон равнялся 0,13. Значит ли это, что переменная АБУАВС объясняет 33% дисперсии Б, а БМ — 13%? Нет, поскольку это означало бы косвенно, что вместе они объясняют 47% диспер­сии, а это противоречит тому факту, что совместная объясняющая способ­ность этих переменных в модели множественной регрессии равна 0,35.

Объяснение заключается в том, что в парной регрессии переменной 5 на АБУАВС переменная АБУАВС частично играет свою собственную роль, а час­тично выступает в качестве замещающей переменной для отсутствующей БМ,

как это показано на рис. 6.1. Величина R2 для этой регрессии, следовательно, отражает объединенную объясняющую способность переменной ASVABC в обоих этих качествах, а не только ее собственную объясняющую способность. Следовательно, величина 0,34 переоценивает последнюю.

Аналогично, в парной регрессии .Уна SMпеременная SMдействует частич­но как замещающая переменная для отсутствующей ASVABC, и показатель R2 в этой регрессии отражает объединенную объясняющую способность пере­менной SM в обеих этих ролях, а не только ее прямую объясняющую способ­ность.

В данном примере объясняющие способности двух переменных перекры­ваются, вследствие чего R2 в множественной регрессии оказался меньше, чем сумма величин R2 в отдельных парных регрессиях. Однако возможно также и то, что величина R2 в множественной регрессии окажется меньшей, чем сумма R2 в отдельных парных регрессиях, что можно видеть в представленной в табл. 6.3 распечатке результатов оценивания регрессии для функции заработ­ка. Предполагается, что истинная модель имеет вид

LGEARN = р, + p2S + р 3ЕХР + и. (6.14)

Первая часть регрессионной распечатки в табл. 6.3 показывает результат оценивания (6.14), а вторая и третья части представляют соответственно ре­зультаты оценивания модели при отсутствии вначале переменной ЕХР, а за­тем S. Коэффициент R2 в множественной регрессии равен 0,27, в то время как в парных регрессиях он составляет 0,21 и 0,02, сумма которых равна 0,23. Как и в предыдущем примере, можно предположить, что оба коэффициента Р2 и р3 положительны. Однако Su ЕХР отрицательно коррелированы, и в этом случае коэффициенты при S и ЕХР во втором и третьем уравнениях регрессии, как можно ожидать, будут смещены вниз. Вследствие этого видимая объясняющая способность переменных S и ЕХР в парных регрессиях недооценивается.

Упражнения

6.1. На основе набора данных EAEF оцените регрессии 5:1) на ASVABC и SM\ 2) толь­ко на ASVABC и 3) только на SM. Рассчитайте коэффициент корреляции между S и ASVABC. Сравните коэффициенты при ASVABC в регрессиях (1) и (2). Дайте математические и интуитивные пояснения направления изменения коэффици­ентов. Сравните также коэффициенты при SMв регрессиях (1) и (3) и объясните направление их изменения.

6.2. На основе набора данных EAEF оцените регрессии LGEARN: 1) на S и ЕХР, 2) только на S и 3) только на ЕХР. Рассчитайте коэффициент корреляции между S и ЕХР. Сравните коэффициенты при S в регрессиях (1) и (2). Дайте математи­ческие и интуитивные пояснения направления изменения коэффициентов. Сравните также коэффициенты при ЕХР в регрессиях (1) и (3) и объясните на­правление их изменения.

6.3. На основе вашего набора данных EAEF оцените регрессии LGEARN: 1) на S, ЕХР, MALE, ETHHISP, ETHBLACK и 2) на S, ЕХР, MALE, ETHHISP, ETHBLACK и ASVABC. Рассчитайте коэффициент корреляции между объясняющими перемен-

- LGEARN S EXP

-urce SS df MS Number of obs = 540

........ -.......... -...... -................................ - F(2,537) = 100.86

Model 50.9842581 2 25.492129 pr0b>F = 0.0000

Residual 135.723385 537 .252743734 R-squared = 0.2731

......... -.......... -...... -.......... -....................... Adj R-squared = 0.2704

Total 186.707643 539 .34639637 Root MSE = .50274

LGEARN Coef. Std. Err. t P>|t| [95%Conf. Interval]

S .1235911 .0090989 13.58 0.000 .1057173 .141465

EXP .0350826 .0050046 7.01 0.000 .0252515 .0449137

_cons .5093196 .1663823 3.06 0.002 .1824796 .8361596

; LGEARNS

*urce SS df MS Number of obs = 540

"Model 38.5643833 1 38.5643833 Prob^F = 0 0000

Residual 148.14326 538 .275359219 R-squared = 0.2065

......................................... Adj R-squared = 0.2051

Total 186.707643 539 .34639637 Root MSE = .52475

LGEARN Coef. Std. Err. t P>|t| [95%Conf. Interval]

S .1096934 .0092691 11.83 0.000 .0914853 .1279014

_cons 1.292241 .1287252 10.04 0.000 1.039376 1.545107

LGEARN EXP

Source SS df MS Number of obs = 540

Model 4.35309315 1 4.35309315 Prob^F = (ШЮО

Residual 182.35455 538 .338948978 R-squared = 0.0233

.............. """"""""".................. Adj R-squared = 0.0215

Total 186.707643 539 .34639637 Root MSE = .58219

LGEARN Coef. Std. Err. t P>|t| . [95%Conf. Interval]

EXP .0202708 .0056564 3.58 0.000 .0091595 .031382 _cons 2.44941 .0988233 24.79 0.000 2.255284 2.643537

ными и обсудите разницу между результатами оценивания регрессий (детальный математический анализ не требуется).

211

В таблице представлены результаты оценивания множественной и парных рег­рессий переменной LGFDHO (логарифма годовых расходов домохозяйств на продукты питания домашнего потребления) на переменные LGEXP (логарифм общих годовых расходов домохозяйств) и LGSIZE (логарифм числа потребителей в домохозяйстве) на основе выборки из 868 домохозяйств в опросе о потреби­тельских расходах за 1995 г. Коэффициент корреляции между LGEXP и LGSIZE равен 0,45. Объясните различия между значениями коэффициентов регрессии.

Введение в эконометрику

(1) (2) (3)
0,29 0,48
1вЕХР
(0,02) (0,02)
0,49 0,63
и^БКЕ
(0,03) (0,02)
4,72 3,17 7,50
Константа
(0,22) (0,24) (0,02)
Я2 0,52 0,31 0,42

6.5. Предположим, что переменная К зависит от Х2иХ}в соответствии с формулой

У= р! + р^ + рзХ3 + и и что - Х2)(х3; - Х3] равно нулю. Воспользуйтесь этим для упрощения

выражения для коэффициента множественной регрессии Ъ2, записанного как

±{ХЬ2)(Г,-?)£(Х312-X (Х3,-Х3){¥,-¥) £{Х2!2)(ХМ3)

и _ м_ м__________________________ м_______________

°2 - - " ~Г ^ >

1=1

1{х2!-Х2)2£{Хм3)2-\±{ХЬ2){Х3,-Х3)

/•=1 1=1

и покажите, что он сводится к выражению, соответствующему модели парной регрессии. Что вытекает отсюда относительно спецификации уравнения регрес­сии?

6.6. При проведении эксперимента Монте-Карло переменная Убыла генерирована как линейная функция двух переменных {Х2 и Х3):

У= 10,0 + 10,ОХ, + 0,5Х3 + и,

где Х2 — последовательность натуральных чисел 1,2,..., 30; переменная Х3 сгене­рирована по Х2 путем добавления к ней случайных чисел; и — нормально распре­деленный случайный член с математическим ожиданием 0 и теоретической дис­персией 10 000. Коэффициент корреляции между Х2 и Х3 равен 0,95. В приведен­ной ниже таблице показаны результаты оценивания следующих регрессий для 10 выборок:

Модель А У = Ь1 + Ь2Х23Х3. Модель В У = 1\ + Ь2Х2.

Прокомментируйте все аспекты результатов оценивания регрессий, дайте пол­ные их объяснения.

борка ь2 С.о.(Ь2) ь3 С.о.(Ьз/ Я2 ьг С.о.(Ьг) Я2
1 10,68 6,05 0,60 5,76 0,5800 11,28 1,82 0,5799
2 7,52 7,11 3,74 6,77 0,5018 11,26 2,14 0,4961
3 7,26 6,58 2,93 6,26 0,4907 10,20 1,98 0,4865
4 11,47 8,60 0,23 8,18 0,4239 11,70 2,58 0,4239
5 13,07 6,07 -3,04 5,78 0,5232 10,03 1,83 0,5183
6 16,74 6,63 -4,01 6,32 0,5966 12,73 2,00 0,5906
7 15,70 7,50 -4,80 7,14 0,4614 10,90 2,27 0,4523
8 8,01 8,10 1,50 7,71 0,3542 9,51 2,43 0,3533
9 1,08 6,78 9,52 6,45 0,5133 10,61 2,11 0,4740
10 13,09 7,58 -0,87 7,21 0,5084 12,22 2,27 0,5081
Модель А

Модель В

. Влияние наличия в модели переменной, которая не должна быть в нее включена

Допустим, что истинная модель представляется в виде

7= р, + р Ж + и, а вы считаете, что ею является

(6.15)

(6.16)

У^ + Р^ + Рз^З + ы, и рассчитываете оценку величины Ь2, используя выражение

\2

;=1 /=1

і=І
і=І
Ъг=-

(6.17)

V /=1

і=і /=і вместо выражения

(6.18)

ш-т-у)

--------------------

Ї7\2

Ш-х)

(=1

В целом проблемы смещения нет, если вы включили лишнюю переменную, несмотря на неправильность формулы расчета Ь2. Величина Е(Ь2) остается равной Р2, но в общем случае оценка будет неэффективной. Она будет более

неустойчивой, в смысле наличия большей дисперсии относительно Р2, чем при правильном вычислении. Это проиллюстрировано на рис. 6.2.

Это можно легко объяснить интуитивно. Истинная модель может быть за­писана в виде

Г-^ + Р^ + МГз + и. (6Л9)

Таблица 6.4
Парная регрессия Множественная регрессия
с2 - 1
п ,

1{Х2)2 F = 0.0000

Residual 130.219231 865 .150542464 R-squared = 0.5159

........................................... -................................. Adj R-squared = 0.5148

Total 268.995781 867 .310260416 Root MSE = .388

■ LGFDHO Coef. Std. Err. t P>|t[ [95%Conf. Interval]

LGSIZE .2866813 .0226824 12.639 0.000 .2421622 .3312003

EXP .4854698 .0255476 19.003 0.000 .4353272 .5356124

_cons 4.720269 .2209996 21.359 0.000 4.286511 5.154027

g LGFDHO LGEXP LGSIZE LGHOUS

Source SS df MS Number of obs = 868

Model 138.841976 3 46.2806586 prob>F = (Toooo

Residual 130.153805 864 .150640978 R-squared = 0.5161

................................................................................ Adj R-squared = 0.5145

Total 268.995781 867 .310260416 Root MSE = .38812

LGFDHO Coef. Std. Err. t P>|t| [95%Conf. Interval]

LGEXP .2673552 .0370782 7.211 0.000 .1945813 .340129

LGSIZE .4868228 .0256383 18.988 0.000 .4365021 .5371434

LGHOUS .0229611 .0348408 0.659 0.510 -.0454214 .0913436

cons 4.708772 .2217592 21.234 0.000 4.273522 5.144022

Упражнения

6.Т.. Исследователь считает, что уровень активности в теневой экономике Узависит либо положительно от налогового бремени X, либо отрицательно от уровня госу­дарственных расходов на предотвращение теневой экономической деятельно­сти Z. Переменная У может также зависеть от обеих переменных Хи Z. Получены международные данные двух перекрестных выборок по Y, X и Z (в млн долл. США), для группы из 30 индустриально развитых и для группы из 30 развиваю­щихся стран. Исследователь оценивает регрессии: 1) log Утолько на logX; 2) log Y только на log Zh 3) log Уна log Хи log Zодновременно для каждой выборки, по­лучая следующие результаты (в скобках приведены стандартные ошибки):

Индустриально развитые страны Развивающиеся страны
(1) (2) (3) (1) (2) (3)
0,699 0,201 0,806 0,727
ЮдХ
(0,154) (0,112) (0,137) (0,090)
-0,646 -0,053 -0,091 0,427
logZ
(0,162) (0,124) (0,117) (0,116)
-1,137 -1,065 1,230 -1,122 -1,024 2,824
Константа
(0,863) (1,069) (0,896) (0,873) (0,858) (0,835)
Я2 0,44 0,10 0,01 0,71 0,70 0,33

Переменная X положительно коррелирована с Z в обеих выборках. Выполнив соответствующие статистические тесты, сделайте краткий обзор, дав рекоменда­ции исследователю относительно интерпретации полученных результатов.

6.8. Оцените регрессию переменной LGEARN на S, EXP, ASVABC, MALE, ETHHISP и ETHBLACK на основе вашего набора данных EAEF. Повторите оценивание, до­бавив переменную SIBLINGS. Рассчитайте коэффициенты корреляции между переменной SIBLINGS и остальными объясняющими переменными. Сравните результаты оценивания двух регрессий.

<< | >>

Еще по теме 6.2. Влияние отсутствия в уравнении переменной, которая должна быть в него включена:

  1. 6.2. Влияние отсутствия в уравнении переменной, которая должна быть включена
  2. 6.3. Влияние включения в модель переменной, которая не должна быть включена
  3. Цены должны быть ни завышенными, ни заниженными. Они должны быть разумными и адекватными.
  4. ПЕРЕЧЕНЬ вопросов, которые должны быть отражены в служебной характеристике аттестуемого
  5. Условия, относительно которых по заявлению одной из сторон должно быть достигнуто соглашение.
  6. ЭТОГО НЕ ДОЛЖНО БЫТЬ
  7. ДОЛЖНА ЛИ ФРС БЫТЬ НЕЗАВИСИМОЙ?
  8. ДОЛЖНА ЛИ ФРС БЫТЬ НЕЗАВИСИМОЙ?
  9. Что должно быть приложено к акту
  10. Как должны быть произведены товары и услуги?
  11. Должна ли выписка быть заверена печатью банка
  12. § 5. Каждое право основано быть должно на предшествующей обязанности
  13. Что общего должно быть у вас с Деннисом Родманом
  14. 6. СПЕЦИФИКАЦИЯ ПЕРЕМЕННЫХ В УРАВНЕНИЯХ РЕГРЕССИИ: ПРЕДВАРИТЕЛЬНОЕ РАССМОТРЕНИЕ
  15. 19.2. Восемь типов кризисов, которым могут быть подвержены российские компании
  16. При этом женщина должна быть уверена в своей самооценке настолько, чтобы ничьи комментарии или негативные оценки не могли ее ценность в собственных глазах принизить.