7. 1. Гетероскедастичность и ее последствия
В условии (А.4), сформулированном в разделе 2.2, утверждается, что дисперсия случайного члена в каждом наблюдении должна быть постоянной. Такое утверждение может показаться странным, и здесь требуется пояснение. Случайный член в каждом наблюдении имеет только одно значение, и может возникнуть вопрос о том, что означает его «дисперсия». Имеется в виду его возможное поведение до того, как сделана выборка. Когда мы записываем модель
У=Р1 + Р2ЛГ+м, (7.1)
условия (А.З) и (А.4) указывают, что случайные члены uv ..., un в п наблюдениях формируются на основе вероятностных распределений, имеющих нулевое математическое ожидание и одну и ту же дисперсию.
Их фактические значения в выборке иногда будут положительными, иногда — отрицательными, иногда — относительно далекими от нуля, иногда — относительно близкими к нулю, но у нас нет причин a priori ожидать появления особенно больших отклонений в любом данном наблюдении. Другими словами, вероятность[5] того, что величина и примет какое-то данное положительное (или отрицательное) значение, будет одинаковой для всех наблюдений. Это условие известно как гомоскедастичность, что означает «одинаковый разброс».На рис. 7.1 приводится иллюстрация гомоскедастичности. Чтобы рисунок был достаточно простым, мы включили в выборку лишь пять наблюдений. Начнем с первого наблюдения, в котором переменная X принимает значение Xv Если бы в модели не было случайного члена, то точка первого наблюдения находилась бы на пересечении вертикальной линии над Х} и линии Y= р, + + PjX В результате воздействия случайного члена наблюдение сдвигается по вертикали вверх или вниз. Потенциальное распределение случайного члена,
Рисунок 7.1. Гомоскедастичность |
определяющее формирование очередного наблюдения, представлено нормальным распределением с центром в соответствующем кружочке. Фактическое значение случайного члена в первом наблюдении оказалось отрицательным, и это наблюдение показано черным кружочком. Потенциальное распределение случайного члена и фактическое наблюдение представлены аналогичным образом и для остальных четырех наблюдений.
Хотя гомоскедастичность в регрессионном анализе часто рассматривается как данная, в некоторых случаях более реалистичным оказывается предположение, что потенциальное распределение случайного члена в разных наблюдениях выборки различно. Это показано на рис. 7.2, где дисперсия потенциального распределения случайного члена возрастает по мере возрастания X. Это не означает, что случайный член обязательно будет иметь особенно большие (положительные или отрицательные) значения в тех наблюдениях, где значение Xвелико, но это значит, что вероятность получения сильно отклоненных величин будет относительно высока. Это — пример гетероскедастич- ности, что означает «неодинаковый разброс». Математически гомоскедастичность и гетероскедастичность могут определяться следующим образом:
Гомоскедастичность: о„ = а2и, величина одинакова для всех наблюдений.
Гетероскедастичность: а2 не одинакова для всех наблюдений.
На рис. 7.3 показано, как будет выглядеть характерная диаграмма рассеяния, если У — возрастающая функция от X и имеется гетероскедастичность типа, показанного на рис. 7.2. Можно видеть, что хотя наблюдения не обязательно все дальше отстоят от основной, нестохастической составляющей зависимости, представленной линией У= р, + р^Х, все же имеется тенденция увеличения их разброса по мере увеличения X. (Следует иметь в виду, что гетероскедастичность не обязательно относится к типу, показанному на рис. 7.2 и 7.3. Данное понятие относится к любому случаю, в котором дисперсия вероятностного распределения случайного члена различна для разных наблюдений).
У
Рисунок 7.2. Гетероскедастичность |
Возникает вопрос, почему гетероскедастичность имеет существенное значение. В самом деле, соответствующая предпосылка регрессионной модели пока не использовалась в проводимом анализе, и она может показаться практически ненужной. В частности, в доказательстве несмещенности оценок коэффициентов, полученных с помощью метода наименьших квадратов, условие гомоскедастичности не использовалось.
Это объясняется двумя причинами. Первая касается дисперсий коэффициентов регрессии. Желательно, чтобы они были как можно меньше, т.е. (в вероятностном смысле) обеспечивали максимальную точность. При отсутствии гетероскедастичности и выполнении остальных предпосылок регрессионного анализа полученные по МНК коэффициенты регрессии имеют наименьшую дисперсию среди всех несмещенных оценок, являющихся линей-
У
> •
Рисунок 7.3. Модель с гетероскедастичным случайным членом
ными функциями от наблюдений У Если присутствует гетероскедастичность, то МНК-оценки неэффективны, поскольку можно (по меньшей мере в принципе) найти другие оценки, которые имеют меньшую дисперсию и, тем не менее, являются несмещенными.
Вторая, не менее важная, причина заключается в том, что сделанные оценки стандартных ошибок коэффициентов регрессии будут неверны.
Они вычисляются на основе предположения о том, что распределение случайного члена гомоскедастично. Если это не так, то они оказываются смещены, и вследствие этого /-критерии и обычный /"-критерий неприменимы. Вполне вероятно, что стандартные ошибки будут занижены, а следовательно, /-статистика — завышена, и будет получено неправильное представление о точности коэффициентов регрессии. Возможно, вы решите, что коэффициент значимо отличается от нуля при данном уровне значимости, тогда как в действительности это не так.Свойство неэффективности можно легко объяснить интуитивно. Предположим, что имеется гетероскедастичность типа, показанного на рис. 7.2 и 7.3. Наблюдение, для которого теоретическое распределение случайного члена имеет малое стандартное отклонение (как первое наблюдение на рис. 7.2), будет обычно находиться близко к линии У- ß, + ß^H, следовательно, будет хорошим направляющим ориентиром, указывающим положение этой линии. В противоположность этому наблюдение, где теоретическое распределение имеет большое стандартное отклонение (как пятое наблюдение на рис. 7.2), не сможет существенно помочь в определении положения этой линии. Обычный МНК не делает различия между качеством наблюдений, придавая одинаковые «веса» каждому из них, независимо от того, является ли наблюдение хорошим или плохим для определения положения линии. Из этого следует, что если мы сможем найти способ придания большего «веса» наблюдениям высокого качества и меньшего — наблюдениям низкого качества, мы, вероятно, получим более точные оценки. Другими словами, наши оценки для ßj и ß2 будут более эффективными. О том, как это делается, речь пойдет ниже.
Возможные причины гетероскедастичности
Гетероскедастичность становится проблемой, когда значения переменных, входящих в уравнение регрессии, значительно различаются в разных наблюдениях. Если истинная зависимость описывается уравнением 7= ß,+ ß2Ar+ и, причем экономические переменные меняют свой масштаб одновременно, то вариации значений невключенных переменных и ошибки измерения, определяющие совместно значение случайного члена, часто сравнительно малы при малых 7 и Хи сравнительно велики — при больших Уи X.
Предположим, например, что вы пользуетесь моделью парной регрессии для рассмотрения зависимости между величиной добавленной стоимости в обрабатывающей промышленности (MANU) и валовым внутренним продуктом (GDP) в различных странах и вы сделали выборку наблюдений, представленных в табл. 7.1 и изображенных на рис. 7.4. Выпуск продукции обрабатывающей промышленности обычно составляет 15—5% ВВП, и отклонения от этих цифр обусловлены сравнительными преимуществами страны и предысторией ее экономического развития. Выборка включает такие малые страны,
Таблица 7.1. Добавленная стоимость в обрабатывающей промышленности (MANU), ВВП (GDP) и численность населения (POP) для межстрановой выборки, 1994 г.
|
Щеточник: UNIDO Yearbook 1997.
^Примечание. MANU и GDP измерены в миллионах долларов США, ЮР — в миллионах человек, MANU/POP и GDP/POP — в долларах США на человека.
как Словения и Словакия, и такие большие, как Франция, Великобритания и Италия. Очевидно, что при большом валовом внутреннем продукте относительное его изменение на 1 % в абсолютном значении будет выражаться значительно ббльшими цифрами, чем при малом.
Южная Корея и Мексика — страны с относительно большим общим объемом ВВП. В Южной Корее обрабатывающий сектор промышленности относительно велик, и поэтому данное наблюдение лежит много выше линии
s 300 000
5
2500 000-
ш .
г § ® §■
Южная Корея |
!? 200 000- /■» Ї
5 £ 150 000- |
50 000- |
5 г Э 2 100 ООО - о. 5 |
Сингапур • * * J/K*—- Греция |
Мексика |
m |
0 |
400 000 600 000 800 000 1 200 000 1 400 000
ВВП, млн долл. США
Рисунок 7.4. Выпуск продукции обрабатывающей промышленности и ВВП
тренда. Противоположным примером служит Мексика, по крайней мере в 1994 г. Еще одна пара стран с относительно большим и относительно небольшим обрабатывающими секторами промышленности — Сингапур и Греция. Однако поскольку общий объем ВВП в этих странах невелик, отклонения соответствующих точек от линии тренда также невелики (рис. 7.4).
Еще по теме 7. 1. Гетероскедастичность и ее последствия:
- 7.2. Гетероскедастичностьи ее последствия
- 7.2. Обнаружение гетероскедастичности
- 7.3. Обнаружение гетероскедастичности
- ГЕТЕРОСКЕДАСТИЧНОСТЬ
- 7.4. Что можно сделать в случае гетероскедастичности?
- 7. ГЕТЕРОСКЕДАСТИЧНОСТЬ И АВТОКОРРЕЛИРОВАННОСТЬ СЛУЧАЙНОГО ЧЛЕНА
- Последствия безработицы
- 12.1. Макроэкономические последствия
- Последствия инфляции
- Последствия недействительности сделок.
- Последствия Тридцатилетней войны
- 5.4. Последствия социального конфликта
- Модель конфликта и его последствия.
- 18.1. Определение условных фактов хозяйственной деятельности и их последствия
- Оценка последствий потерь
- Причины и последствия раздробленности.
- Последствия гиперинфляции