3.4. Мультиколлинеарность
Высокая коррелированность не всегда ведет к плохим оценкам. Если вс | остальные факторы, определяющие дисперсии коэффициентов регрессии благоприятствуют оцениванию, т.е. если число наблюдений и среднее знач^ ние квадратов отклонений объясняющих переменных велики, и дисперси* случайного члена мала, то вы можете получить, тем не менее, хорошие оценка. Итак, мультиколлинеарность должна быть вызвана сочетанием высокой ко? релированности и одного или нескольких других неблагоприятных условий И это — вопрос степени выраженности проблемы, а не ее сущности. Люба регрессия будет страдать от нее в определенной степени, если только все незг висимые переменные не будут абсолютно некоррелированными.
Обсужден! же этого вопроса начинается только тогда, когда это серьезно влияет на резулз таты оценивания регрессии.Эта проблема является обычной для регрессий на основе временных ряде* | т.е. когда данные состоят из ряда наблюдений в течение какого-то периода вр: мени. Если две или более независимые переменные имеют сильный временной тренд, то они будут высоко коррелированы, и это может привести к музш тиколлинеарности. Заметим, что наличие мультиколлинеарности не означаг что модель неверно специфицирована. Соответственно, коэффициенты рг грессии остаются несмещенными, и стандартные ошибки рассчитывают! корректно. При этом стандартные ошибки оказываются большими, чем о:- были бы при отсутствии мультиколлинеарности, предупреждая о меньшей Кг | дежности полученных оценок коэффициентов регрессии.
(3.3» |
(3. |
Вначале мы рассмотрим случай совершенной мультиколлинеарности, к> гда объясняющие переменные полностью коррелированы. Предположим, истинная зависимость имеет вид
У= 2 + ЗХ2 + Х3 + и.
Предположим также, что между Х2 и Х3 существует приблизительная лине» ная зависимость:
X. = 2Х7 - 1,
и допустим, что величина Х2 увеличивается на одну единицу в каждом наб.и дении. Тогда Х3 увеличится на две единицы, а У— на пять единиц, как показ но, например, в табл. 3.6.
При рассмотрении этих данных можно прийти к любому из следующих в* водов:
1) величина У определяется уравнением (3.38) (правильное утверждение
о.- |
(3.- I |
2) величина Х3 не имеет отношения к данному случаю, и величина Копре" г ляется зависимостью
У= \ + 5Х? + и;
3) величина Х2 не имеет отношения к данному случаю, и величина Копре: ляется зависимостью
У= 3,5 + 2,5Х3 + и.
X. | *3 | У Изменение Х2 | Изменение Х3 | Приблизительное изменение У |
"О | 19 | 51 щ 1 | 2 | 5 |
11 | 21 | 56+и2 1 | 2 | 5 |
«2 | 23 | 61 +и3 1 | 2 | 5 |
гЗ | 25 | 66+и4 1 | 2 | 5 |
•л | 27 | 71+и5 1 | 2 | 5 |
•А | 29 | 76+и6 1 | 2 | 5 |
В действительности этими возможностями дело не ограничивается.
Любое соотношение, которое является средним взвешенным условий (3.40) и (3.41), также будет соответствовать описанным данным. Например, условие (3.38) можно рассматривать как среднее взвешенное условий (3.40) и (3.41) с коэффициентом соответственно 0,6 или 0,4.В подобной ситуации ни для регрессионного анализа, ни для каких-либо других методов невозможно провести грань между этими возможностями. Вы не смогли бы даже рассчитать коэффициенты регрессии, поскольку и числитель, и знаменатель К этих коэффициентов обращаются в нуль. Мы покажем это для общего случая с двумя объясняющими переменными. Предположим, что
Г= р, + р2*2 + (З3*3 + и (3.42)
Х3 = Х + \лХ2. (3.43)
Сначала заметим, что, зная (3.43),
(*з/-Х3)=([Х+[хХ21]-[Х + ц12]) = ц( -Х2). (3.44)
Следовательно,
(3.45)
/=1 /=1
/=1 /=1
-Х2)(Х31 -хг) = \&{х21 -Х2)\ (3.47)
/=1 /=1
Произведя подстановку для Х3 в (3.11), получаем
i=l i=1
/=1 |
-1(^3/-m-f)±(X2i-X2)(X3i-X3)
/=i
- \2
х(*2/ -^зг - l{x2i-x2)(x2i-x3)
/=i /=i V /=1
/=1 |
(3.44 |
V /=1
/=1
- \2
V /=1
n .{ n Л ( n V 0
/=i V /=i / v /=i
Наличие строгой взаимосвязи между объясняющими переменными в ре грессии, конечно, нетипично. Если это происходит, то обычно вследствие ло гической ошибки в спецификации. Пример этого приведен в упражнении 3.15 Тем не менее, нередко имеют место приблизительные взаимосвязи.
(3.49. |
Например, при построении зависимости заработка от времени обучения школе и опыта работы очень часто разумно предположить, что эффект опытг работы имеет убывающую отдачу. Стандартная спецификация, которая пред) сматривает это,
EARNINGS = Р, + р25 + Р3 EXP + Р4 EXPSQ + и,
где EXPSQ — квадрат ЕХР. Согласно гипотезе об убывающей отдаче р4 должн. быть отрицательным. В табл. 3.7 показаны результаты оценивания такой ре грессии с использованием набора данных EAEF21.
Результат оценивания регрессии показывает, что каждый дополнительны» год учебы увеличивает часовой заработок на 2,75 долл. Результат очень похож к; полученный в спецификации без EXPSQ, показанной в табл. 3.1. Стандартна ошибка также мало изменилась, и коэффициент остался высокозначимым.
Однако результаты оценивания влияния опыта работы в модели отличаю: ся от приведенных выше. Высокий коэффициент корреляции между EXP f EXPSQ, равный 0,9812, ведет к возникновению проблемы мультиколлинеарно сти. Одно из ее последствий заключается в том, что коэффициенты затронуты- переменных становятся неустойчивыми, отражая трудность в отделении изменения (эффекта) одной переменной от эффекта другой переменной. В это* случае коэффициент при переменной ЕХР, который, как ожидалось, был по ложительным и высокозначимым до введения EXPSQ, в действительности ока зался отрицательным. Второе последствие состоит в увеличении стандартны ошибок, что сигнализирует о возможной нестабильности получаемых оцено» В этом случае стандартная ошибка коэффициента ЕХР увеличилась с 0,1285 з: 0,6652. И ЕХР, и EXPSQ имеют низкие значения r-статистик: мы не можем ска зать, действительно ли EXPSQ должна включаться в спецификацию модели.
-eg EARNINGS S EXP EXPSQ
|
:or EXP EXPSQ (obs=540) |
EXP EXPSQ EXP 1.0000 EXPSQ 0.9812 1.0000
Ыультиколлинеарность в моделях более чем с двумя ъбъясняющими переменными
Предшествующее обсуждение мультиколлинеарности было ограничено случаем двух объясняющих переменных. В моделях с большим числом объясняющих переменных мультиколлинеарность также может быть вызвана приблизительно линейной взаимосвязью между ними. Может оказаться затруднительным различить воздействие одной переменной и линейной комбинации остальных переменных. В модели с двумя объясняющими переменными примерно линейная зависимость автоматически означает высокую корреляцию, но если их три или больше, то это не обязательно так. Линейная взаимосвязь не связана неизбежно с высокой коррелированностью любой пары из этих переменных. Последствия мультиколлинеарности здесь те же, что и в случае двух объясняющих переменных, и так же, как и в случае двух объясняющих переменных, данная проблема не будет серьезной, если теоретическая дисперсия случайного члена мала, число наблюдений велико и велики средние квадраты отклонений объясняющих переменных.
«-о можно предпринять в случае мультиколлинеарности?
Различные методы, которые могут быть использованы для смягчения мультиколлинеарности, делятся на две категории: прямые попытки улучшить четыре условия, ответственные за надежность регрессионных оценок, и косвенные методы.
Во-первых, можно попытаться уменьшить отца одинаково важны. Мы можем тогда наложить ограничение рз = р4 Эт: позволяет нам записать уравнение как
5 = р, + р2 ASVSABC + рз (SM + SF) + и.
При определении 57>как суммы ЗМ и уравнение может быть переписан: с АЗУАВС и ЗР как объясняющими переменными:
5 = р, + р 2ASVABC + р 3SP + и.
Оценив параметры модели на основе набора данных EAEF21, получаем распечатку, представленную в табл. 3.11. Оценка рз теперь равна 0,083. Неудивительно, что это значение — компромисс между коэффициентами при SM и SF • предыдущей спецификации. Стандартная ошибка SP намного меньше, чеч стандартные ошибки SM и SF, и это указывает на то, что использование ограни
Таблица 3.10
reg S ASVABC SM SF
Source SS df MS Number of obs = 540
Model 1181.36981 3 393.789935 Prob^F - 0 0000
Residual 2023.61353 536 3.77539837 R-squared = 0.3686
............................................................................................................. Adj R-squared = 0.3651
Total 3204.98333 539 5.94616574 Root MSE = 1.943
S Coef. Std.Err. t P>|t| [95% Conf. Interval]
ASVABC .1257087 .0098533 12.76 0.000 .1063528 .1450646
SM .0492424 .0390901 1.26 0.208 -.027546 .1260309
SF .1076825 .0309522 3.48 0.001 .04688 .1684851
_cons 5.370631 .4882155 11.00 0.000 4.41158 6.329681
чения привело к выигрышу в эффективности, и, как следствие этого, /-статистика очень высока. Таким образом, проблема мультиколлинеарности была здесь устранена. Однако данное ограничение могло оказаться незначимым. Его нужно проверить с помощью теста. Мы увидим, как можно это сделать, в гл. 6.
Таблица 3.11
вг SP = SM + SF г.; S ASVABC SP
*эигсе SS df MS Number of obs = 540
...................................................................................................... F(2, 537) = 156.04
Model 1177.98338 2 588.991689 Prob > F = 0.0000
Residual 2026.99996 537 3.77467403 R-squared = 0.3675
........ -........................................ -................. -........ ---• Adj R-squared = 0.3652
Total 3204.98333 539 5.94616574 Root MSE = 1.9429
S Coef. Std. Err. t P>|t| [95% Conf. Interval]
ASVABC .1253106 .0098434 12.73 0.000 .1059743 .1446469
SP .0828368 .0164247 5.04 0.000 .0505722 .1151014
cons 5.29617 .4817972 10.99 0.000 4.349731 6.242608
с*жнения
Используя ваш набор данных EAEF, оцените регрессию S на SM, SF, а также на ASVAB02, ASVABQZ и ASVAB04, три компонента составного показателя ASVABC. Сравните коэффициенты и их стандартные ошибки с таковыми для ASVABC в регрессии S на SM, SFи ASVABC. Вычислите коэффициенты корреляции для трех компонентов ASVAB.
С1 Исследуйте детерминанты размера семьи, построив регрессию переменной SIBLINGS на SMw SF на основе вашего набора данных EAEF. Переменные SM и SF, вероятно, высоко коррелированы (найдите корреляцию между ними в вашем наборе данных), и регрессия может быть подвержена мультиколлинеарности. Введите ограничение, согласно которому теоретические коэффициенты при SM и Нравны между собой, и оцените регрессию во второй раз, заменив SM и SFих суммой (SP). Охарактеризуйте результаты оценивания регрессии.
Р\ Исследователь, изучающий детерминанты спроса на общественный транспорт в некотором городе, имеет следующие данные для 100 резидентов в течение предыдущего календарного года: расходы на общественный транспорт (Е), измеренные в долларах; число отработанных дней (W) и число нерабочих дней NW. По определению NW равно 365 - W. Исследователь пытается оценить следующую модель:
Объясните, почему он неспособен оценить это уравнение (дайте и интуитивные, и формальные объяснения). Как он мог бы решить проблему?
i-4. Опыт работы обычно считается важным детерминантом заработка. Если в наборе нет непосредственного показателя трудового стажа, то его можно оценить с помощью потенциального трудового стажа PWE, определенного как
PWE = AGE-S-5.
Это — максимальное число лет, прошедшее после завершения очного образов* ния, считая, что индивидуум поступает в первый класс в возрасте шести лет. И: пользовав ваш набор данных EAEF, вначале оцените регрессию переменно! EARNINGS на S и PWE, а затем оцените регрессию во второй раз, добавив тагас переменную AGE. Прокомментируйте результаты оценивания регрессии.
Еще по теме 3.4. Мультиколлинеарность:
- 5.5. Мультиколлинеарность
- 3.3. Свойства коэффициентов множественной регрессии
- 6.5. Проверка линейного ограничения
- 10.2. Распределение Койка
- 3. 1. Иллюстрация: модель с двумя объясняющими переменными
- Приложение 10.1
- 5.1. Иллюстрация: модель с двумя независимыми переменными
- § 4.11. Эконометрический анализ эффектов интервенций
- Бочаров В.В.. Инвестиции. СПб.: — 176 с. (сер. "Завтра экзамен"), 2008
- Капферер, Жан-Ноэль. Бренд навсегда: создание, развитие, поддержка ценности бренда, 2007
- Предисловие к русскому изданию Настольная книга специалистов по брендингу
- Предисловие к третьему изданию Объединение бренда и бизнеса
- ЧАСТЬ ПЕРВАЯ.Почему брендинг является стратегическим