6.4. Замещающие переменные
Независимо от причины обычно бывает полезно вместо отсутствующей переменной использовать некоторый ее заменитель (proxy), а не пренебрегать ею совершенно. В качестве показателя общего социально-экономического положения вы можете использовать его заменитель — показатель дохода, если данные о нем имеются. В качестве показателя качества образования можно использовать отношение числа преподавателей и сотрудников к числу студентов или расходы на одного студента.
Вместо переменной, опущенной в каком-либо обзоре, вы можете обратиться к другим, уже фактически собранным данным, если в них имеется подходящая замещающая переменная.Имеются две причины для поиска такой переменной. Во-первых, если вы просто опустите важную переменную, то регрессия может пострадать от смещения оценок, описанного в разделе 6.2, и статистическая проверка будет неполноценной. Во-вторых, результаты оценки регрессии с включением замещающей переменной могут дать косвенную информацию о той переменной, которая замещена данной переменной.
Пример 1. Время как замещающая переменная для показателя технического прогресса
Мы уже встречались с замещающей переменной в разделе 5.5, где время использовалось для описания роста выпуска вследствие технического прогресса.
В рассматривавшемся там периоде рост производительности, связанный с техническим прогрессом, оказался относительно малозначительным фактором. В последующие годы технический прогресс стал значительно более важным фактором, и при полном его исключении из спецификации производственной функции очевидно, что результаты оценки регрессии оказались бы сильно искаженными.Когда на основе совокупных данных по экономике США за период 1949— 1978 гг., подготовленных Дж. Кендриком и Э. Гроссменом (Kendrick, Grossman, 1980), была построена производственная функция Кобба—Дугласа и получено следующее уравнение (в скобках даны стандартные ошибки):
log У= -1,03 + 0,17 logtf+ 0,93 logI + 0,024/; = 0,99; (6.21)
(2,33) (0,66) (0,17) (0,016) F = 1297,
где К— индекс объема выпуска внутреннего частного сектора; К— индекс затрат капитала; L — индекс затрат труда; t — время, равное единице в 1948 г., двум — в 1949 г., и т.д., все эти индексы были взяты в реальном выражении (1967= 100).
Если не считать весьма высокой эластичности выпуска по труду, то полученный результат вполне правдоподобен. Правда, ни оценка эластичности выпуска по капиталу, ни оценка темпов роста, связанных с техническим прогрессом, не отличаются значимо от нуля, но это может быть отнесено на счет муль- тиколлинеарности.
Если бы время не было использовано в качестве замещающей переменной для показателя технического прогресса, то оцененное уравнение выглядело бы следующим образом:
log Г= -4,50+ 1,19 logtf+ 0,77 log!; Я2 = 0,99; (6.22)
(с.о.) (0,57) (0,10) (0,15) F = 2012.
В уравнении (6.22) видно, что роль замещающей переменной для показателя технического прогресса играет log К. Коэффициент при log К неправдоподобно велик с двух точек зрения. Во-первых, он указывает, что увеличение затрат капитала должно привести к еще большему (пропорционально) увеличению выпуска при сохранении затрат труда постоянными. На практике же при неизменности других факторов можно ожидать снижения отдачи данного фактора.
Во-вторых, если предположить, что рынки имеют конкурентный характер, то полученный результат означал бы, что доля дохода, приходящегося на капитал, превышает единицу, что, естественно, является абсурдом.При добавлении в уравнение переменной t коэффициент при log ЛГуже больше не смещается под действием того, что log А'играл роль замещающей переменной для показателя технического прогресса; так что этот коэффициент становится более обоснованным в обоих отношениях. Естественно, фактор времени может заключать в себе и другие факторы, относящиеся ко времени и влияющие на выпуск помимо технического прогресса. Но это только усиливает аргумент в пользу включения его в уравнение, хотя все это означает, что в интерпретации значения его коэффициента следует быть осторожным.
Пример 2\ Замещающая переменная для показателя дохода в функции спроса
В качестве второго примера, который хотя и не контролируется подобно эксперименту по методу Монте-Карло, но тем не менее позволяет судить об успехе той или иной замещающей переменной, рассмотрим еще раз модель, связывающую расходы потребителя на питание (у) с располагаемым личным доходом (х:) и с относительной ценой продовольствия (/?):
log у = а + (3,log х + p2log р + w, (6.23)
и предположим, что по какой-то причине мы не имеем доступа к данным о располагаемом личном доходе. Допустим, что нам, тем не менее, хотелось бы получить оценку ценовой эластичности спроса.
Как мы видели в разделе 6.2, парная регрессия между logy и logр дает смещенную оценку величины р2, при этом тестовые статистики оказываются некорректными. Пусть, однако, мы считаем (и считаем правильно), что log* имеет ярко выраженный временной тренд. В этом случае мы могли бы частично решить проблему путем использования времени в качестве замещающей переменной для х, построив регрессию:
log у = а + b2 log р + b3t. (6.24)
|
В табл.
6.7 даны результаты, полученные: 1) для правильно специфицированной регрессии между log у, log х и log р\ 2) для неправильно специфицированной парной регрессии только между log у и log р\ 3) для множественной регрессии при использовании t в качестве замещающей переменной для log х (с указанием стандартных ошибок в скобках).Во второй регрессии при невключении в уравнение logx оценка ценовой эластичности спроса настолько сильно смещается вверх, что становится положительной, а уровень коэффициента R2 значительно ниже, чем в первой регрессии. В третьей регрессии введение / явно устраняет смещение в оценке ценовой эластичности, а коэффициент R2 восстанавливается до предшествующего высокого уровня. Устранение смещения вызывается тем, что t в этом случае берет на себя роль замещающей переменной для отсутствующего log х, оставляя для logр выполнение только собственных функций. Почти полное восстановление коэффициента Л2 до предыдущего уровня можно объяснить тем, что величина t значительно лучше выполняет роль замещающей переменной для отсутствующего показателя log х, чем log р.
Обобщение
Теперь мы можем обобщить сделанные выводы. Предположим, что истинной моделью является
у = а + J3[Xj + Рл + ... + Рл + /Л (6.25)
и допустим, что мы не имеем данных по переменной х,, но другая переменная 184
(г) выступает идеальным заменителем для нее в том смысле, что имеется строгая линейная связь между величинами х, и I:
хх=Х + цг, (6.26)
где X и ц являются постоянными, но неизвестными величинами. (Заметьте, что если бы X и д были известными, то мы могли бы вычислить х, по величине I и тогда не было бы необходимости использовать I в качестве замещающей переменной для нее. Заметьте также, что мы не можем оценить величины X и р. посредством регрессионного анализа, поскольку для этого потребовались бы данные по величине х,.)
Если мы построим регрессию
у = а + Ь^с2 + ... + Ьрк + С1, (6.27)
то оценки величин Ь2, ..., Ьк, их стандартные ошибки и коэффициент К2 будут такими же, какими они были бы при наличии возможности построения регрессии с использованием х,. Единственным недостатком является то, что нет оценок коэффициента при самой величине х,, а величина а не является оценкой а. Коэффициент с будет оценкой величины р^. Для того чтобы получить оценку рр нужно разделить величину с на |1. Зачастую вы можете не иметь представления о величине |1, и тогда на этом дело будет закончено. Но иногда вы сможете сделать о ней субъективное предположение на основе опыта, интуиции или логики.
Например, предположим, что вы исследуете вопрос об «утечке мозгов» из страны А в страну В и используете (весьма наивную) модель:
у = а + рх + и, (6.28)
где у — показатель относительного уровня миграции определенного вида трудовых ресурсов из страны А в страну В; х — показатель отношения уровня заработной платы в стране В к заработной плате в стране А. Вы полагаете, что при более высокой разнице в заработной плате будет более высокой и миграция. Однако предположим, что у вас есть данные только по валовому внутреннему продукту (ВВП) на душу населения, но не по заработной плате. В этом случае можно ввести замещающую переменную/?, которая является отношением ВВП страны В к ВВП страны А.
В этом случае в качестве первого приближения было бы разумно предположить, что относительные уровни заработной платы пропорциональны относительным величинам ВВП. Если бы эта зависимость была строгой, то уравнение (6.26) можно было бы записать с величиной X, равной нулю, и величиной 11, равной единице. Отсюда с — коэффициент при относительном ВВП дал бы непосредственную оценку величины р — коэффициента при относительной заработной плате. Поскольку переменные в регрессионном анализе зачастую определяются в относительной форме, то этот частный случай в действительности имеет широкое применение.
В данном рассуждении мы приняли, что г является идеальной замещающей переменной для х, и справедливость всех приведенных выше результатов зависит именно от этого условия. На практике обычно невозможно найти замещающую переменную, имеющую строгую линейную связь с недостающей переменной. Но если связь близка к линейной, то результаты будут приблизительно на том же уровне. Основной проблемой является отсутствие средств для проверки того, удовлетворительно или нет выполняется указанное условие. Здесь приходится оправдывать использование замещающей переменной на основе субъективных критериев. Использование несовершенных замещающих переменных будет рассмотрено далее в главе 8.
Непреднамеренное использование замещающих переменных
Иногда случается, что вы используете замещающую переменную, не осознавая этого. Вы полагаете, что у зависит от г, а в действительности эта величина зависит от х.
Если корреляция между величинами г и х незначительна, то результаты будут плохими, и вы поймете, что тут что-то неладно. Но если корреляция тесная, то результаты окажутся удовлетворительными (коэффициент/?2 будет близок к желаемому уровню и т. п.), и вы можете даже не подозревать, что полученное соотношение неверно.
Имеет ли это какое-то значение? Это, во-первых, зависит от того, с какой целью вы строите данную регрессию. Если целью оценивания регрессии является предсказание будущих значений величины у, то использование замещающей переменной не будет иметь большого значения при условии, конечно, что корреляция тесная и не является в то же время статистической счастливой случайностью. Однако если вы намерены использовать объясняющую переменную в качестве инструмента экономической политики для оказания влияния на поведение зависимой переменной, то последствия могут оказаться катастрофическими. Если только не будет функциональной связи между замещающей переменной и истинной объясняющей переменной, манипулирование замещающей переменной не окажет никакого влияния на зависимую переменную. Если мотивом построения регрессии является чисто научное любопытство, то исход будет столь же неудовлетворительным.
Непреднамеренное использование замещающих переменных особенно распространено при анализе временных рядов, в частности в макроэкономических моделях. Если истинная объясняющая переменная имеет временной тренд, то вы, вероятно, получите хорошую оценку формулы, если замените (преднамеренно или нет) ее на любую другую переменную с временным трендом. Даже если вы связываете приращения зависимой переменной с приращениями объясняющей переменной, вы, вероятно, получите аналогичные результаты независимо от того, используется ли правильная объясняющая переменная или же замещающая переменная, поскольку макроэкономические переменные обычно изменяются взаимосвязанно, в соответствии с экономическим циклом.
Упражнения
6.11. В приведенной ниже таблице даны коэффициенты (с указанными в скобках стандартными ошибками) логарифмической регрессионной зависимости расходов на жилье: 1) от располагаемого личного дохода (dpi) и цены; 2) только
от цены; 3) от цены и времени. Показатель ф/и цена, вычисленные поданным выборочного периода, оказались отрицательно коррелированными. Прокомментируйте результаты.
Оценки коэффициентов
|
6.12. Используя данные по товару, выбранному вами в упражнении 2.4, постройте парную логарифмическую регрессионную зависимость спроса от относительной цены и множественную регрессионную зависимость спроса от относительной цены и времени {не включая dpi). Сопоставьте результаты со множественной регрессионной зависимостью спроса от располагаемого личного дохода и относительной цены, оцененной вами в упражнении 5.6. Сделали бы вы вывод, что время может служить удовлетворительной замещающей переменной для располагаемого личного дохода, если бы вам не удалось получить данные о последнем?
6.13. Исследователь считает, что соотношение между годовым доходом индивида (>>), числом лет трудового стажа (х) и количеством лет обучения (5) выражается формулой:
у = а + pjX + Р25 + и,
где и — случайный член. Исследователь располагает данными перекрестной выборки по у и S для 1000 человек, но не имеет прямых данных по х. Имеются данные о возрасте каждого индивида, а отсюда z — число лет, прошедших с момента официального завершения обучения, может быть вычислено по формуле:
Z — Возраст -5-6,
исходя из предположения, что каждый индивид начал учиться в возрасте 6 лет. Подчеркните преимущества и недостатки построения регрессионной зависимости у: 1) только от величины 5; 2) от S и z, используя z в качестве замещающей переменной для х. Обсудите в каждом случае, каким образом должны интерпретироваться результаты регрессии и какие могут быть выполнены статистические тесты.
Еще по теме 6.4. Замещающие переменные:
- 6.4. Замещающие переменные
- 8.6.Инструментальные переменные
- 11.4. Инструментальные переменные(ИП)
- 8.4. Инструментальные переменные
- Зависимая переменная
- 8.1. Стохастические объясняющие переменные
- 9.3. Оценивание с помощью инструментальных переменных
- 6.7. Лаговые переменные
- Методы деления затрат на постоянные и переменные
- 4.2. Анализ внутренних ситуационных переменных
- 3. 1. Иллюстрация: модель с двумя объясняющими переменными
- Методы деления затрат на постоянные и переменные
- 5.1. Иллюстрация: модель с двумя независимыми переменными
- 12.5. Автокорреляция с лаговой зависимой переменной
- 7.8. Автокорреляция с лаговой зависимой переменной
- Природа затрат. Переменные и постоянные издержки.
- 5.3. Фиктивные переменные для коэффициента наклона
- 8.1. Допущения моделей со стохастическими объясняющими переменными