<<
>>

6.4. Замещающие переменные

Часто бывает, что вы не можете найти данных по переменной, которую хо­телось бы включить в уравнение регрессии. Некоторые переменные, относящи­еся к социально-экономическому положению или к качеству образования, имеют такое расплывчатое определение, что их в принципе даже невозможно изме­рить.
Другие могут поддаваться измерению, но оно требует столько времени и энергии, что на практике их приходится отбрасывать. Иногда вы можете быть расстроены тем, что пользуетесь какими-то данными, собранными другим че­ловеком, в которых (с вашей точки зрения) опущена важная переменная.

Независимо от причины обычно бывает полезно вместо отсутствующей пе­ременной использовать некоторый ее заменитель (proxy), а не пренебрегать ею совершенно. В качестве показателя общего социально-экономического положе­ния вы можете использовать его заменитель — показатель дохода, если данные о нем имеются. В качестве показателя качества образования можно использовать отношение числа преподавателей и сотрудников к числу студентов или расхо­ды на одного студента.

Вместо переменной, опущенной в каком-либо обзоре, вы можете обратиться к другим, уже фактически собранным данным, если в них имеется подходящая замещающая переменная.

Имеются две причины для поиска такой переменной. Во-первых, если вы просто опустите важную переменную, то регрессия может пострадать от сме­щения оценок, описанного в разделе 6.2, и статистическая проверка будет не­полноценной. Во-вторых, результаты оценки регрессии с включением замеща­ющей переменной могут дать косвенную информацию о той переменной, ко­торая замещена данной переменной.

Пример 1. Время как замещающая переменная для показателя технического прогресса

Мы уже встречались с замещающей переменной в разделе 5.5, где время ис­пользовалось для описания роста выпуска вследствие технического прогресса.

В рассматривавшемся там периоде рост производительности, связанный с техни­ческим прогрессом, оказался относительно малозначительным фактором. В пос­ледующие годы технический прогресс стал значительно более важным факто­ром, и при полном его исключении из спецификации производственной фун­кции очевидно, что результаты оценки регрессии оказались бы сильно иска­женными.

Когда на основе совокупных данных по экономике США за период 1949— 1978 гг., подготовленных Дж. Кендриком и Э. Гроссменом (Kendrick, Grossman, 1980), была построена производственная функция Кобба—Дугласа и получено следующее уравнение (в скобках даны стандартные ошибки):

log У= -1,03 + 0,17 logtf+ 0,93 logI + 0,024/; = 0,99; (6.21)

(2,33) (0,66) (0,17) (0,016) F = 1297,

где К— индекс объема выпуска внутреннего частного сектора; К— индекс зат­рат капитала; L — индекс затрат труда; t — время, равное единице в 1948 г., двум — в 1949 г., и т.д., все эти индексы были взяты в реальном выражении (1967= 100).

Если не считать весьма высокой эластичности выпуска по труду, то полу­ченный результат вполне правдоподобен. Правда, ни оценка эластичности вы­пуска по капиталу, ни оценка темпов роста, связанных с техническим прогрес­сом, не отличаются значимо от нуля, но это может быть отнесено на счет муль- тиколлинеарности.

Если бы время не было использовано в качестве замещающей переменной для показателя технического прогресса, то оцененное уравнение выглядело бы следующим образом:

log Г= -4,50+ 1,19 logtf+ 0,77 log!; Я2 = 0,99; (6.22)

(с.о.) (0,57) (0,10) (0,15) F = 2012.

В уравнении (6.22) видно, что роль замещающей переменной для показате­ля технического прогресса играет log К. Коэффициент при log К неправдопо­добно велик с двух точек зрения. Во-первых, он указывает, что увеличение зат­рат капитала должно привести к еще большему (пропорционально) увеличе­нию выпуска при сохранении затрат труда постоянными. На практике же при неизменности других факторов можно ожидать снижения отдачи данного фак­тора.

Во-вторых, если предположить, что рынки имеют конкурентный харак­тер, то полученный результат означал бы, что доля дохода, приходящегося на капитал, превышает единицу, что, естественно, является абсурдом.

При добавлении в уравнение переменной t коэффициент при log ЛГуже больше не смещается под действием того, что log А'играл роль замещающей перемен­ной для показателя технического прогресса; так что этот коэффициент стано­вится более обоснованным в обоих отношениях. Естественно, фактор времени может заключать в себе и другие факторы, относящиеся ко времени и влияю­щие на выпуск помимо технического прогресса. Но это только усиливает аргу­мент в пользу включения его в уравнение, хотя все это означает, что в интер­претации значения его коэффициента следует быть осторожным.

Пример 2\ Замещающая переменная для показателя дохода в функции спроса

В качестве второго примера, который хотя и не контролируется подобно эксперименту по методу Монте-Карло, но тем не менее позволяет судить об ус­пехе той или иной замещающей переменной, рассмотрим еще раз модель, свя­зывающую расходы потребителя на питание (у) с располагаемым личным до­ходом (х:) и с относительной ценой продовольствия (/?):

log у = а + (3,log х + p2log р + w, (6.23)

и предположим, что по какой-то причине мы не имеем доступа к данным о располагаемом личном доходе. Допустим, что нам, тем не менее, хотелось бы получить оценку ценовой эластичности спроса.

Как мы видели в разделе 6.2, парная регрессия между logy и logр дает сме­щенную оценку величины р2, при этом тестовые статистики оказываются не­корректными. Пусть, однако, мы считаем (и считаем правильно), что log* име­ет ярко выраженный временной тренд. В этом случае мы могли бы частично ре­шить проблему путем использования времени в качестве замещающей перемен­ной для х, построив регрессию:

log у = а + b2 log р + b3t. (6.24)
Таблица 6.7
Объясняющие Оценки коэффициентов (стандартные ошибки)
переменные ьл ь2 bz R2
log ху log р 0,64 -0,48 (0,03) (0,12) 0.99
log р — 2,04 (0,33) 0,63
log р, t — -0,47 (0,13) 0,023 (0,001) 0,98

В табл.

6.7 даны результаты, полученные: 1) для правильно специфицирован­ной регрессии между log у, log х и log р\ 2) для неправильно специфицирован­ной парной регрессии только между log у и log р\ 3) для множественной рег­рессии при использовании t в качестве замещающей переменной для log х (с указанием стандартных ошибок в скобках).

Во второй регрессии при невключении в уравнение logx оценка ценовой эластичности спроса настолько сильно смещается вверх, что становится поло­жительной, а уровень коэффициента R2 значительно ниже, чем в первой рег­рессии. В третьей регрессии введение / явно устраняет смещение в оценке цено­вой эластичности, а коэффициент R2 восстанавливается до предшествующего высокого уровня. Устранение смещения вызывается тем, что t в этом случае бе­рет на себя роль замещающей переменной для отсутствующего log х, оставляя для logр выполнение только собственных функций. Почти полное восстановле­ние коэффициента Л2 до предыдущего уровня можно объяснить тем, что вели­чина t значительно лучше выполняет роль замещающей переменной для отсут­ствующего показателя log х, чем log р.

Обобщение

Теперь мы можем обобщить сделанные выводы. Предположим, что истин­ной моделью является

у = а + J3[Xj + Рл + ... + Рл + /Л (6.25)

и допустим, что мы не имеем данных по переменной х,, но другая переменная 184

(г) выступает идеальным заменителем для нее в том смысле, что имеется стро­гая линейная связь между величинами х, и I:

хх=Х + цг, (6.26)

где X и ц являются постоянными, но неизвестными величинами. (Заметьте, что если бы X и д были известными, то мы могли бы вычислить х, по величине I и тогда не было бы необходимости использовать I в качестве замещающей пере­менной для нее. Заметьте также, что мы не можем оценить величины X и р. по­средством регрессионного анализа, поскольку для этого потребовались бы дан­ные по величине х,.)

Если мы построим регрессию

у = а + Ь^с2 + ... + Ьрк + С1, (6.27)

то оценки величин Ь2, ..., Ьк, их стандартные ошибки и коэффициент К2 будут такими же, какими они были бы при наличии возможности построения рег­рессии с использованием х,. Единственным недостатком является то, что нет оценок коэффициента при самой величине х,, а величина а не является оцен­кой а. Коэффициент с будет оценкой величины р^. Для того чтобы получить оценку рр нужно разделить величину с на |1. Зачастую вы можете не иметь пред­ставления о величине |1, и тогда на этом дело будет закончено. Но иногда вы сможете сделать о ней субъективное предположение на основе опыта, интуи­ции или логики.

Например, предположим, что вы исследуете вопрос об «утечке мозгов» из страны А в страну В и используете (весьма наивную) модель:

у = а + рх + и, (6.28)

где у — показатель относительного уровня миграции определенного вида тру­довых ресурсов из страны А в страну В; х — показатель отношения уровня зара­ботной платы в стране В к заработной плате в стране А. Вы полагаете, что при более высокой разнице в заработной плате будет более высокой и миграция. Од­нако предположим, что у вас есть данные только по валовому внутреннему про­дукту (ВВП) на душу населения, но не по заработной плате. В этом случае мож­но ввести замещающую переменную/?, которая является отношением ВВП стра­ны В к ВВП страны А.

В этом случае в качестве первого приближения было бы разумно предполо­жить, что относительные уровни заработной платы пропорциональны относи­тельным величинам ВВП. Если бы эта зависимость была строгой, то уравнение (6.26) можно было бы записать с величиной X, равной нулю, и величиной 11, равной единице. Отсюда с — коэффициент при относительном ВВП дал бы не­посредственную оценку величины р — коэффициента при относительной зара­ботной плате. Поскольку переменные в регрессионном анализе зачастую опре­деляются в относительной форме, то этот частный случай в действительности имеет широкое применение.

В данном рассуждении мы приняли, что г является идеальной замещающей переменной для х, и справедливость всех приведенных выше результатов зави­сит именно от этого условия. На практике обычно невозможно найти замещаю­щую переменную, имеющую строгую линейную связь с недостающей перемен­ной. Но если связь близка к линейной, то результаты будут приблизительно на том же уровне. Основной проблемой является отсутствие средств для проверки того, удовлетворительно или нет выполняется указанное условие. Здесь прихо­дится оправдывать использование замещающей переменной на основе субъек­тивных критериев. Использование несовершенных замещающих переменных будет рассмотрено далее в главе 8.

Непреднамеренное использование замещающих переменных

Иногда случается, что вы используете замещающую переменную, не осоз­навая этого. Вы полагаете, что у зависит от г, а в действительности эта величи­на зависит от х.

Если корреляция между величинами г и х незначительна, то результаты бу­дут плохими, и вы поймете, что тут что-то неладно. Но если корреляция тес­ная, то результаты окажутся удовлетворительными (коэффициент/?2 будет бли­зок к желаемому уровню и т. п.), и вы можете даже не подозревать, что полу­ченное соотношение неверно.

Имеет ли это какое-то значение? Это, во-первых, зависит от того, с какой целью вы строите данную регрессию. Если целью оценивания регрессии явля­ется предсказание будущих значений величины у, то использование замещаю­щей переменной не будет иметь большого значения при условии, конечно, что корреляция тесная и не является в то же время статистической счастливой слу­чайностью. Однако если вы намерены использовать объясняющую переменную в качестве инструмента экономической политики для оказания влияния на по­ведение зависимой переменной, то последствия могут оказаться катастрофи­ческими. Если только не будет функциональной связи между замещающей пе­ременной и истинной объясняющей переменной, манипулирование замещаю­щей переменной не окажет никакого влияния на зависимую переменную. Если мотивом построения регрессии является чисто научное любопытство, то исход будет столь же неудовлетворительным.

Непреднамеренное использование замещающих переменных особенно рас­пространено при анализе временных рядов, в частности в макроэкономических моделях. Если истинная объясняющая переменная имеет временной тренд, то вы, вероятно, получите хорошую оценку формулы, если замените (преднаме­ренно или нет) ее на любую другую переменную с временным трендом. Даже если вы связываете приращения зависимой переменной с приращениями объяс­няющей переменной, вы, вероятно, получите аналогичные результаты незави­симо от того, используется ли правильная объясняющая переменная или же замещающая переменная, поскольку макроэкономические переменные обыч­но изменяются взаимосвязанно, в соответствии с экономическим циклом.

Упражнения

6.11. В приведенной ниже таблице даны коэффициенты (с указанными в скоб­ках стандартными ошибками) логарифмической регрессионной зависимости рас­ходов на жилье: 1) от располагаемого личного дохода (dpi) и цены; 2) только

от цены; 3) от цены и времени. Показатель ф/и цена, вычисленные поданным выборочного периода, оказались отрицательно коррелированными. Прокоммен­тируйте результаты.

Оценки коэффициентов
dpi Цена / R2
(1) 1.18 (0,06) -0,34 (0,31) 0,99
(2) -6,72 (0,70) 0,80
(3) -0,63 (0,13) 0,041 (0,001) 1,00

6.12. Используя данные по товару, выбранному вами в упражнении 2.4, по­стройте парную логарифмическую регрессионную зависимость спроса от отно­сительной цены и множественную регрессионную зависимость спроса от отно­сительной цены и времени {не включая dpi). Сопоставьте результаты со множе­ственной регрессионной зависимостью спроса от располагаемого личного до­хода и относительной цены, оцененной вами в упражнении 5.6. Сделали бы вы вывод, что время может служить удовлетворительной замещающей переменной для располагаемого личного дохода, если бы вам не удалось получить данные о последнем?

6.13. Исследователь считает, что соотношение между годовым доходом ин­дивида (>>), числом лет трудового стажа (х) и количеством лет обучения (5) вы­ражается формулой:

у = а + pjX + Р25 + и,

где и — случайный член. Исследователь располагает данными перекрестной вы­борки по у и S для 1000 человек, но не имеет прямых данных по х. Имеются данные о возрасте каждого индивида, а отсюда z — число лет, прошедших с момента официального завершения обучения, может быть вычислено по фор­муле:

Z — Возраст -5-6,

исходя из предположения, что каждый индивид начал учиться в возрасте 6 лет. Подчеркните преимущества и недостатки построения регрессионной зависимо­сти у: 1) только от величины 5; 2) от S и z, используя z в качестве замещаю­щей переменной для х. Обсудите в каждом случае, каким образом должны ин­терпретироваться результаты регрессии и какие могут быть выполнены статис­тические тесты.

<< | >>
Источник: Доугерти К.. Введение в эконометрику: Пер. с англ. — M.: ИНФРА-М, — XIV, 402 с.. 1999

Еще по теме 6.4. Замещающие переменные:

  1. 6.4. Замещающие переменные
  2. 8.6.Инструментальные переменные
  3. 11.4. Инструментальные переменные(ИП)
  4. 8.4. Инструментальные переменные
  5. Зависимая переменная
  6. 8.1. Стохастические объясняющие переменные
  7. 9.3. Оценивание с помощью инструментальных переменных
  8. 6.7. Лаговые переменные
  9. Методы деления затрат на постоянные и переменные
  10. 4.2. Анализ внутренних ситуационных переменных
  11. 3. 1. Иллюстрация: модель с двумя объясняющими переменными
  12. Методы деления затрат на постоянные и переменные
  13. 5.1. Иллюстрация: модель с двумя независимыми переменными
  14. 12.5. Автокорреляция с лаговой зависимой переменной
  15. 7.8. Автокорреляция с лаговой зависимой переменной
  16. Природа затрат. Переменные и постоянные издержки.
  17. 5.3. Фиктивные переменные для коэффициента наклона
  18. 8.1. Допущения моделей со стохастическими объясняющими переменными