<<
>>

7. 1. Гетероскедастичность и ее последствия

Медицинская наука традиционно подразделяется на три части — анатомию, физио­логию и патологию, соответственно изучающие структуру организма, принципы действия его систем и нарушения их функционирования.
Аналогично, у нас сейчас наступил момент для рассмотрения недостатков («патологии») регрессионного анализа, основанного на методе наименьших квадратов. Свойства оценок коэффи­циентов регрессии зависят от свойств случайного члена в регрессионной модели. В этой и последующих главах будут рассмотрены некоторые проблемы, возника­ющие при нарушении условий, перечисленных в разделе 2.2.

В условии (А.4), сформулированном в разделе 2.2, утверждается, что диспер­сия случайного члена в каждом наблюдении должна быть постоянной. Такое утверждение может показаться странным, и здесь требуется пояснение. Слу­чайный член в каждом наблюдении имеет только одно значение, и может воз­никнуть вопрос о том, что означает его «дисперсия». Имеется в виду его воз­можное поведение до того, как сделана выборка. Когда мы записываем модель

У=Р1 + Р2ЛГ+м, (7.1)

условия (А.З) и (А.4) указывают, что случайные члены uv ..., un в п наблюдени­ях формируются на основе вероятностных распределений, имеющих нулевое математическое ожидание и одну и ту же дисперсию.

Их фактические значе­ния в выборке иногда будут положительными, иногда — отрицательными, иногда — относительно далекими от нуля, иногда — относительно близкими к нулю, но у нас нет причин a priori ожидать появления особенно больших отклонений в любом данном наблюдении. Другими словами, вероятность[5] того, что величина и примет какое-то данное положительное (или отрицатель­ное) значение, будет одинаковой для всех наблюдений. Это условие известно как гомоскедастичность, что означает «одинаковый разброс».

На рис. 7.1 приводится иллюстрация гомоскедастичности. Чтобы рисунок был достаточно простым, мы включили в выборку лишь пять наблюдений. Начнем с первого наблюдения, в котором переменная X принимает значение Xv Если бы в модели не было случайного члена, то точка первого наблюдения находилась бы на пересечении вертикальной линии над Х} и линии Y= р, + + PjX В результате воздействия случайного члена наблюдение сдвигается по вертикали вверх или вниз. Потенциальное распределение случайного члена,

Рисунок 7.1. Гомоскедастичность

определяющее формирование очередного наблюдения, представлено нор­мальным распределением с центром в соответствующем кружочке. Фактичес­кое значение случайного члена в первом наблюдении оказалось отрицатель­ным, и это наблюдение показано черным кружочком. Потенциальное распре­деление случайного члена и фактическое наблюдение представлены аналогичным образом и для остальных четырех наблюдений.

Хотя гомоскедастичность в регрессионном анализе часто рассматривается как данная, в некоторых случаях более реалистичным оказывается предполо­жение, что потенциальное распределение случайного члена в разных наблю­дениях выборки различно. Это показано на рис. 7.2, где дисперсия потенци­ального распределения случайного члена возрастает по мере возрастания X. Это не означает, что случайный член обязательно будет иметь особенно боль­шие (положительные или отрицательные) значения в тех наблюдениях, где значение Xвелико, но это значит, что вероятность получения сильно откло­ненных величин будет относительно высока. Это — пример гетероскедастич- ности, что означает «неодинаковый разброс». Математически гомоскедастич­ность и гетероскедастичность могут определяться следующим образом:

Гомоскедастичность: о„ = а2и, величина одинакова для всех наблюдений.

Гетероскедастичность: а2 не одинакова для всех наблюдений.

На рис. 7.3 показано, как будет выглядеть характерная диаграмма рассея­ния, если У — возрастающая функция от X и имеется гетероскедастичность типа, показанного на рис. 7.2. Можно видеть, что хотя наблюдения не обяза­тельно все дальше отстоят от основной, нестохастической составляющей зави­симости, представленной линией У= р, + р^Х, все же имеется тенденция уве­личения их разброса по мере увеличения X. (Следует иметь в виду, что гетеро­скедастичность не обязательно относится к типу, показанному на рис. 7.2 и 7.3. Данное понятие относится к любому случаю, в котором дисперсия вероятно­стного распределения случайного члена различна для разных наблюдений).

У

Рисунок 7.2. Гетероскедастичность

Возникает вопрос, почему гетероскедастичность имеет существенное зна­чение. В самом деле, соответствующая предпосылка регрессионной модели пока не использовалась в проводимом анализе, и она может показаться прак­тически ненужной. В частности, в доказательстве несмещенности оценок ко­эффициентов, полученных с помощью метода наименьших квадратов, усло­вие гомоскедастичности не использовалось.

Это объясняется двумя причинами. Первая касается дисперсий коэффи­циентов регрессии. Желательно, чтобы они были как можно меньше, т.е. (в вероятностном смысле) обеспечивали максимальную точность. При отсут­ствии гетероскедастичности и выполнении остальных предпосылок регресси­онного анализа полученные по МНК коэффициенты регрессии имеют на­именьшую дисперсию среди всех несмещенных оценок, являющихся линей-

У

> •

Рисунок 7.3. Модель с гетероскедастичным случайным членом

ными функциями от наблюдений У Если присутствует гетероскедастичность, то МНК-оценки неэффективны, поскольку можно (по меньшей мере в прин­ципе) найти другие оценки, которые имеют меньшую дисперсию и, тем не менее, являются несмещенными.

Вторая, не менее важная, причина заключается в том, что сделанные оцен­ки стандартных ошибок коэффициентов регрессии будут неверны.

Они вы­числяются на основе предположения о том, что распределение случайного члена гомоскедастично. Если это не так, то они оказываются смещены, и вследствие этого /-критерии и обычный /"-критерий неприменимы. Вполне вероятно, что стандартные ошибки будут занижены, а следовательно, /-ста­тистика — завышена, и будет получено неправильное представление о точно­сти коэффициентов регрессии. Возможно, вы решите, что коэффициент зна­чимо отличается от нуля при данном уровне значимости, тогда как в действи­тельности это не так.

Свойство неэффективности можно легко объяснить интуитивно. Предпо­ложим, что имеется гетероскедастичность типа, показанного на рис. 7.2 и 7.3. Наблюдение, для которого теоретическое распределение случайного члена имеет малое стандартное отклонение (как первое наблюдение на рис. 7.2), бу­дет обычно находиться близко к линии У- ß, + ß^H, следовательно, будет хорошим направляющим ориентиром, указывающим положение этой линии. В противоположность этому наблюдение, где теоретическое распределение имеет большое стандартное отклонение (как пятое наблюдение на рис. 7.2), не сможет существенно помочь в определении положения этой линии. Обыч­ный МНК не делает различия между качеством наблюдений, придавая одина­ковые «веса» каждому из них, независимо от того, является ли наблюдение хорошим или плохим для определения положения линии. Из этого следует, что если мы сможем найти способ придания большего «веса» наблюдениям высокого качества и меньшего — наблюдениям низкого качества, мы, вероят­но, получим более точные оценки. Другими словами, наши оценки для ßj и ß2 будут более эффективными. О том, как это делается, речь пойдет ниже.

Возможные причины гетероскедастичности

Гетероскедастичность становится проблемой, когда значения переменных, входящих в уравнение регрессии, значительно различаются в разных наблю­дениях. Если истинная зависимость описывается уравнением 7= ß,+ ß2Ar+ и, причем экономические переменные меняют свой масштаб одновременно, то вариации значений невключенных переменных и ошибки измерения, опреде­ляющие совместно значение случайного члена, часто сравнительно малы при малых 7 и Хи сравнительно велики — при больших Уи X.

Предположим, например, что вы пользуетесь моделью парной регрессии для рассмотрения зависимости между величиной добавленной стоимости в обрабатывающей промышленности (MANU) и валовым внутренним продук­том (GDP) в различных странах и вы сделали выборку наблюдений, представ­ленных в табл. 7.1 и изображенных на рис. 7.4. Выпуск продукции обрабаты­вающей промышленности обычно составляет 15—5% ВВП, и отклонения от этих цифр обусловлены сравнительными преимуществами страны и предыс­торией ее экономического развития. Выборка включает такие малые страны,

Таблица 7.1. Добавленная стоимость в обрабатывающей промышленности (MANU), ВВП (GDP) и численность населения (POP) для межстрановой выборки, 1994 г.
| Страна MANU GDP POP MANU/POP GDP/POP
(Вельгия 44517 232 006 10,093 4411 22987
(Канада 112617 547 203 29,109 3869 18798
(Чили 13 096 50 919 13,994 936 3639
р(ания 25 927 151 266 5,207 4979 29 050
[Финляндия 21 581 97 624 5,085 4244 19199
(франция 256 316 1 330 998 57,856 4430 23 005
(Греция 9392 98 861 10,413 902 9494
ронконг 11 758 130 823 6,044 1945 21 645
(Венгрия 7227 41 506 10,162 711 4084
(Ирландия 17 572 52 662 3,536 4970 14 893
(Израиль 11 349 74121 5,362 2117 13 823
(Италия 145 013 1 016 286 57,177 2536 17 774
(о. Корея 161 318 380 820 44,501 3625 8558
(Кувейт 2797 24 848 1,754 1595 14167
(Малайзия 18 874 72 505 19,695 958 3681
(Мексика 55 073 420788 89,564 615 4698
(Нидерланды 48 595 334 286 15,382 3159 21 732
[Норвегия 13484 122 926 4,314 3126 28495
|Лортугалия 17025 87 352 9,824 1733 8892
{Сингапур 20 648 71 039 3,268 6318 21 738
{рювакия 2720 13 746 5,325 511 2581
{Словения 4520 14 386 1,925 2348 7473
(Испания 80104 483 652 39,577 2024 12 221
^Швеция 34 806 198 432 8,751 3977 22675
^Швейцария 57503 261 388 7,104 8094 36 794
[Сирия 3317 44753 13,840 240 3234
^Турция 31 115 135 961 59,903 519 2270
[Великобритания 244397 1 024609 58,005 4213 17 664

Щеточник: UNIDO Yearbook 1997.

^Примечание. MANU и GDP измерены в миллионах долларов США, ЮР — в миллионах человек, MANU/POP и GDP/POP — в долларах США на человека.

как Словения и Словакия, и такие большие, как Франция, Великобритания и Италия. Очевидно, что при большом валовом внутреннем продукте относи­тельное его изменение на 1 % в абсолютном значении будет выражаться значи­тельно ббльшими цифрами, чем при малом.

Южная Корея и Мексика — страны с относительно большим общим объ­емом ВВП. В Южной Корее обрабатывающий сектор промышленности отно­сительно велик, и поэтому данное наблюдение лежит много выше линии

s 300 000

5

2500 000-

ш .

г § ® §■

Южная Корея

!? 200 000- /■» Ї

5 £ 150 000-
50 000-
5 г

Э 2 100 ООО - о. 5

Сингапур

• * *

J/K*—- Греция

Мексика
m
0

400 000 600 000 800 000 1 200 000 1 400 000

ВВП, млн долл. США

Рисунок 7.4. Выпуск продукции обрабатывающей промышленности и ВВП

тренда. Противоположным примером служит Мексика, по крайней мере в 1994 г. Еще одна пара стран с относительно большим и относительно неболь­шим обрабатывающими секторами промышленности — Сингапур и Греция. Однако поскольку общий объем ВВП в этих странах невелик, отклонения со­ответствующих точек от линии тренда также невелики (рис. 7.4).

<< | >>
Источник: Доугерти К.. Введение в эконометрику: Учебник. 3-е изд. / Пер. с англ. — М.: ИНФРА-М, — XIV, 465 с. — (Университетский учебник).. 2009

Еще по теме 7. 1. Гетероскедастичность и ее последствия:

  1. 7.2. Гетероскедастичностьи ее последствия
  2. 7.2. Обнаружение гетероскедастичности
  3. 7.3. Обнаружение гетероскедастичности
  4. ГЕТЕРОСКЕДАСТИЧНОСТЬ
  5. 7.4. Что можно сделать в случае гетероскедастичности?
  6. 7. ГЕТЕРОСКЕДАСТИЧНОСТЬ И АВТОКОРРЕЛИРОВАННОСТЬ СЛУЧАЙНОГО ЧЛЕНА
  7. Последствия безработицы
  8. 12.1. Макроэкономические последствия
  9. Последствия инфляции
  10. Последствия недействительности сделок.
  11. Последствия Тридцатилетней войны
  12. 5.4. Последствия социального конфликта
  13. Модель конфликта и его последствия.
  14. 18.1. Определение условных фактов хозяйственной деятельности и их последствия
  15. Оценка последствий потерь
  16. Причины и последствия раздробленности.
  17. Последствия гиперинфляции