<<
>>

3.4. Мультиколлинеарность

В предыдущем разделе при рассмотрении модели с двумя объясняющими переменными мы заметили, что чем выше корреляция между объясняющими переменными, тем больше теоретические дисперсии распределений их коэф­фициентов и тем больше риск получить неточные оценки коэффициентов.
Если корреляция делает модель неудовлетворительной с данной точки зрения, то говорят о проблеме мультиколлинеарности.

Высокая коррелированность не всегда ведет к плохим оценкам. Если вс | остальные факторы, определяющие дисперсии коэффициентов регрессии благоприятствуют оцениванию, т.е. если число наблюдений и среднее знач^ ние квадратов отклонений объясняющих переменных велики, и дисперси* случайного члена мала, то вы можете получить, тем не менее, хорошие оценка. Итак, мультиколлинеарность должна быть вызвана сочетанием высокой ко? релированности и одного или нескольких других неблагоприятных условий И это — вопрос степени выраженности проблемы, а не ее сущности. Люба регрессия будет страдать от нее в определенной степени, если только все незг висимые переменные не будут абсолютно некоррелированными.

Обсужден! же этого вопроса начинается только тогда, когда это серьезно влияет на резулз таты оценивания регрессии.

Эта проблема является обычной для регрессий на основе временных ряде* | т.е. когда данные состоят из ряда наблюдений в течение какого-то периода вр: мени. Если две или более независимые переменные имеют сильный времен­ной тренд, то они будут высоко коррелированы, и это может привести к музш тиколлинеарности. Заметим, что наличие мультиколлинеарности не означаг что модель неверно специфицирована. Соответственно, коэффициенты рг грессии остаются несмещенными, и стандартные ошибки рассчитывают! корректно. При этом стандартные ошибки оказываются большими, чем о:- были бы при отсутствии мультиколлинеарности, предупреждая о меньшей Кг | дежности полученных оценок коэффициентов регрессии.

(3.3»
(3.

Вначале мы рассмотрим случай совершенной мультиколлинеарности, к> гда объясняющие переменные полностью коррелированы. Предположим, истинная зависимость имеет вид

У= 2 + ЗХ2 + Х3 + и.

Предположим также, что между Х2 и Х3 существует приблизительная лине» ная зависимость:

X. = 2Х7 - 1,

и допустим, что величина Х2 увеличивается на одну единицу в каждом наб.и дении. Тогда Х3 увеличится на две единицы, а У— на пять единиц, как показ но, например, в табл. 3.6.

При рассмотрении этих данных можно прийти к любому из следующих в* водов:

1) величина У определяется уравнением (3.38) (правильное утверждение

о.-
(3.- I

2) величина Х3 не имеет отношения к данному случаю, и величина Копре" г ляется зависимостью

У= \ + 5Х? + и;

3) величина Х2 не имеет отношения к данному случаю, и величина Копре: ляется зависимостью

У= 3,5 + 2,5Х3 + и.

X. *3 У Изменение Х2 Изменение Х3 Приблизительное изменение У
19 51 щ 1 2 5
11 21 56+и2 1 2 5
«2 23 61 +и3 1 2 5
гЗ 25 66+и4 1 2 5
•л 27 71+и5 1 2 5
•А 29 76+и6 1 2 5

В действительности этими возможностями дело не ограничивается.

Любое соотношение, которое является средним взвешенным условий (3.40) и (3.41), также будет соответствовать описанным данным. Например, условие (3.38) можно рассматривать как среднее взвешенное условий (3.40) и (3.41) с коэф­фициентом соответственно 0,6 или 0,4.

В подобной ситуации ни для регрессионного анализа, ни для каких-либо других методов невозможно провести грань между этими возможностями. Вы не смогли бы даже рассчитать коэффициенты регрессии, поскольку и числи­тель, и знаменатель К этих коэффициентов обращаются в нуль. Мы покажем это для общего случая с двумя объясняющими переменными. Предположим, что

Г= р, + р2*2 + (З3*3 + и (3.42)

Х3 = Х + \лХ2. (3.43)

Сначала заметим, что, зная (3.43),

(*з/-Х3)=([Х+[хХ21]-[Х + ц12]) = ц( -Х2). (3.44)

Следовательно,

(3.45)

/=1 /=1

/=1 /=1

2)(Х31г) = \&{х212)\ (3.47)

/=1 /=1

Произведя подстановку для Х3 в (3.11), получаем

i=l i=1

/=1

-1(^3/-m-f)±(X2i-X2)(X3i-X3)

/=i

- \2

х(*2/ -^зг - l{x2i-x2)(x2i-x3)

/=i /=i V /=1

/=1
(3.44

V /=1

/=1

- \2

V /=1

n .{ n Л ( n V 0

/=i V /=i / v /=i

Наличие строгой взаимосвязи между объясняющими переменными в ре грессии, конечно, нетипично. Если это происходит, то обычно вследствие ло гической ошибки в спецификации. Пример этого приведен в упражнении 3.15 Тем не менее, нередко имеют место приблизительные взаимосвязи.

(3.49.

Например, при построении зависимости заработка от времени обучения школе и опыта работы очень часто разумно предположить, что эффект опытг работы имеет убывающую отдачу. Стандартная спецификация, которая пред) сматривает это,

EARNINGS = Р, + р25 + Р3 EXP + Р4 EXPSQ + и,

где EXPSQ — квадрат ЕХР. Согласно гипотезе об убывающей отдаче р4 должн. быть отрицательным. В табл. 3.7 показаны результаты оценивания такой ре грессии с использованием набора данных EAEF21.

Результат оценивания регрессии показывает, что каждый дополнительны» год учебы увеличивает часовой заработок на 2,75 долл. Результат очень похож к; полученный в спецификации без EXPSQ, показанной в табл. 3.1. Стандартна ошибка также мало изменилась, и коэффициент остался высокозначимым.

Однако результаты оценивания влияния опыта работы в модели отличаю: ся от приведенных выше. Высокий коэффициент корреляции между EXP f EXPSQ, равный 0,9812, ведет к возникновению проблемы мультиколлинеарно сти. Одно из ее последствий заключается в том, что коэффициенты затронуты- переменных становятся неустойчивыми, отражая трудность в отделении изме­нения (эффекта) одной переменной от эффекта другой переменной. В это* случае коэффициент при переменной ЕХР, который, как ожидалось, был по ложительным и высокозначимым до введения EXPSQ, в действительности ока зался отрицательным. Второе последствие состоит в увеличении стандартны ошибок, что сигнализирует о возможной нестабильности получаемых оцено» В этом случае стандартная ошибка коэффициента ЕХР увеличилась с 0,1285 з: 0,6652. И ЕХР, и EXPSQ имеют низкие значения r-статистик: мы не можем ска зать, действительно ли EXPSQ должна включаться в спецификацию модели.

-eg EARNINGS S EXP EXPSQ
Source SS df MS Number of obs = F(3,536) Prob > F R-squared Adj R-squared = Root MSE 540 45.57 0.0000 0.2032 0.1988 12.904
Model Residual 22762.4472 89247.7839 3

536

7587.48241 166.507059
Total 112010.231 539 207.811189
EARNINGS Coef. Std. Err. t P>|t| [95% Conf. Interval]
S 2.754372 .2417286 11.39 0.000 2.279521 3.229224
EXP -.2353907 .665197 -0.35 0.724 -1.542103 1.071322
EXPSQ .0267843 .0219115 1.22 0.222 -.0162586 .0698272
cons -22.21964 5.514827 -4.03 0.000 -33.05297 -11.38632

:or EXP EXPSQ (obs=540)

EXP EXPSQ EXP 1.0000 EXPSQ 0.9812 1.0000

Ыультиколлинеарность в моделях более чем с двумя ъбъясняющими переменными

Предшествующее обсуждение мультиколлинеарности было ограничено случаем двух объясняющих переменных. В моделях с большим числом объяс­няющих переменных мультиколлинеарность также может быть вызвана при­близительно линейной взаимосвязью между ними. Может оказаться затрудни­тельным различить воздействие одной переменной и линейной комбинации остальных переменных. В модели с двумя объясняющими переменными при­мерно линейная зависимость автоматически означает высокую корреляцию, но если их три или больше, то это не обязательно так. Линейная взаимосвязь не связана неизбежно с высокой коррелированностью любой пары из этих пе­ременных. Последствия мультиколлинеарности здесь те же, что и в случае двух объясняющих переменных, и так же, как и в случае двух объясняющих пере­менных, данная проблема не будет серьезной, если теоретическая дисперсия случайного члена мала, число наблюдений велико и велики средние квадраты отклонений объясняющих переменных.

«-о можно предпринять в случае мультиколлинеарности?

Различные методы, которые могут быть использованы для смягчения муль­тиколлинеарности, делятся на две категории: прямые попытки улучшить че­тыре условия, ответственные за надежность регрессионных оценок, и косвен­ные методы.

Во-первых, можно попытаться уменьшить отца одинаково важны. Мы можем тогда наложить ограничение рз = р4 Эт: позволяет нам записать уравнение как

5 = р, + р2 ASVSABC + рз (SM + SF) + и.

При определении 57>как суммы ЗМ и уравнение может быть переписан: с АЗУАВС и ЗР как объясняющими переменными:

5 = р, + р 2ASVABC + р 3SP + и.

Оценив параметры модели на основе набора данных EAEF21, получаем рас­печатку, представленную в табл. 3.11. Оценка рз теперь равна 0,083. Неудиви­тельно, что это значение — компромисс между коэффициентами при SM и SF • предыдущей спецификации. Стандартная ошибка SP намного меньше, чеч стандартные ошибки SM и SF, и это указывает на то, что использование ограни

Таблица 3.10

reg S ASVABC SM SF

Source SS df MS Number of obs = 540

Model 1181.36981 3 393.789935 Prob^F - 0 0000

Residual 2023.61353 536 3.77539837 R-squared = 0.3686

............................................................................................................. Adj R-squared = 0.3651

Total 3204.98333 539 5.94616574 Root MSE = 1.943

S Coef. Std.Err. t P>|t| [95% Conf. Interval]

ASVABC .1257087 .0098533 12.76 0.000 .1063528 .1450646

SM .0492424 .0390901 1.26 0.208 -.027546 .1260309

SF .1076825 .0309522 3.48 0.001 .04688 .1684851

_cons 5.370631 .4882155 11.00 0.000 4.41158 6.329681

чения привело к выигрышу в эффективности, и, как следствие этого, /-статисти­ка очень высока. Таким образом, проблема мультиколлинеарности была здесь устранена. Однако данное ограничение могло оказаться незначимым. Его нуж­но проверить с помощью теста. Мы увидим, как можно это сделать, в гл. 6.

Таблица 3.11

вг SP = SM + SF г.; S ASVABC SP

*эигсе SS df MS Number of obs = 540

...................................................................................................... F(2, 537) = 156.04

Model 1177.98338 2 588.991689 Prob > F = 0.0000

Residual 2026.99996 537 3.77467403 R-squared = 0.3675

........ -........................................ -................. -........ ---• Adj R-squared = 0.3652

Total 3204.98333 539 5.94616574 Root MSE = 1.9429

S Coef. Std. Err. t P>|t| [95% Conf. Interval]

ASVABC .1253106 .0098434 12.73 0.000 .1059743 .1446469

SP .0828368 .0164247 5.04 0.000 .0505722 .1151014

cons 5.29617 .4817972 10.99 0.000 4.349731 6.242608

с*жнения

Используя ваш набор данных EAEF, оцените регрессию S на SM, SF, а также на ASVAB02, ASVABQZ и ASVAB04, три компонента составного показателя ASVABC. Сравните коэффициенты и их стандартные ошибки с таковыми для ASVABC в регрессии S на SM, SFи ASVABC. Вычислите коэффициенты корреляции для трех компонентов ASVAB.

С1 Исследуйте детерминанты размера семьи, построив регрессию переменной SIBLINGS на SMw SF на основе вашего набора данных EAEF. Переменные SM и SF, вероятно, высоко коррелированы (найдите корреляцию между ними в вашем наборе данных), и регрессия может быть подвержена мультиколлинеарности. Введите ограничение, согласно которому теоретические коэффициенты при SM и Нравны между собой, и оцените регрессию во второй раз, заменив SM и SFих суммой (SP). Охарактеризуйте результаты оценивания регрессии.

Р\ Исследователь, изучающий детерминанты спроса на общественный транспорт в некотором городе, имеет следующие данные для 100 резидентов в течение пре­дыдущего календарного года: расходы на общественный транспорт (Е), изме­ренные в долларах; число отработанных дней (W) и число нерабочих дней NW. По определению NW равно 365 - W. Исследователь пытается оценить следую­щую модель:

Объясните, почему он неспособен оценить это уравнение (дайте и интуитивные, и формальные объяснения). Как он мог бы решить проблему?

i-4. Опыт работы обычно считается важным детерминантом заработка. Если в набо­ре нет непосредственного показателя трудового стажа, то его можно оценить с помощью потенциального трудового стажа PWE, определенного как

PWE = AGE-S-5.

Это — максимальное число лет, прошедшее после завершения очного образов* ния, считая, что индивидуум поступает в первый класс в возрасте шести лет. И: пользовав ваш набор данных EAEF, вначале оцените регрессию переменно! EARNINGS на S и PWE, а затем оцените регрессию во второй раз, добавив тагас переменную AGE. Прокомментируйте результаты оценивания регрессии.

<< | >>
Источник: Доугерти К.. Введение в эконометрику: Учебник. 3-е изд. / Пер. с англ. — М.: ИНФРА-М, — XIV, 465 с. — (Университетский учебник).. 2009

Еще по теме 3.4. Мультиколлинеарность:

  1. 5.5. Мультиколлинеарность
  2. 3.3. Свойства коэффициентов множественной регрессии
  3. 6.5. Проверка линейного ограничения
  4. 10.2. Распределение Койка
  5. 3. 1. Иллюстрация: модель с двумя объясняющими переменными
  6. Приложение 10.1
  7. 5.1. Иллюстрация: модель с двумя независимыми переменными
  8. § 4.11. Эконометрический анализ эффектов интервенций
  9. Бочаров В.В.. Инвестиции. СПб.: — 176 с. (сер. "Завтра экзамен"), 2008
  10. Капферер, Жан-Ноэль. Бренд навсегда: создание, развитие, поддержка ценности бренда, 2007
  11. Предисловие к русскому изданию Настольная книга специалистов по брендингу
  12. Предисловие к третьему изданию Объединение бренда и бизнеса
  13. ЧАСТЬ ПЕРВАЯ.Почему брендинг является стратегическим