<<
>>

14.1. Введение

Если в перекрестной выборке один и тот же респондент опрошен два или более раза, то результирующие данные называют панельными. Всеамерикан­ский опрос молодежи (NLSY) — источник многих примеров и упражнений в этой книге — представляет набор данных такого вида.
Ж5У начался сдервого опроса в 1979 г., затем те же респонденты опрашивались ежегодно до 1994 г. и один раз в два года — после 1994 г. При этом отдельные наблюдения совсем не обязательно должны относиться к конкретным людям. Это может быть домо­хозяйство, фирма или географическая область — любой объект, который со­храняет свою идентичность с течением времени.

Поскольку панельные данные сочетают в себе признаки, как данных пере­крестного типа, так и временных рядов, применение регрессионного анализа для эконометрических моделей с такими данными является более сложным, чем для перекрестных выборок/Тем не менее. панёльные данные все чаще ис­пользуются в прикладных исследованиях, ицелью этой главы является крат­кое введение в эту область.

Более подробное представление данного вопроса можно найти в работах Сяо (Hsiao, 2003), Балтаджи (Baltagi, 2001) и Вулдрид- жа (Wboldiidge, 2002).

Существует несколько причин растущего интереса к панельным данным. Одна из наиболее значимых заключается в том, что их использование может решить проблему смещенности, вызванной ненаблюдаемой неоднородно­стью данных, типичную проблему в использовании моделей для данных пере­крестных выборок. Об этом будет сказано более подробно в следующем под­разделе. .

Вторая причина — возможность использовать панельные данные для ис­следования динамики, которую трудно обнаружить в данных перекрестных выборок. К примеру, если есть данные пере1фестной выборки для взрослых респондентов, то можно увидеть, что часть людей работает, другая часть — безработные, остальные экономически неактивны.

Для принятия же решений может быть важно различие между фрикционной и долгосрочной безработи­цей. Фрикционная безработица неизбежна в меняющейся экономике, но дол­госрочная безработица служит сигналом наличия социальных проблем, нуж­дающихся в решении. Формирование эффективной экономической полити­ки, направленной на борьбу с долгосрочной безработицей, требует знания характеристик тех, кто подвержен этому явлению или находится в зоне риска. В принципе необходимую информацию в рамках перекрестной выборки мо­жет дать дополнительный вопрос о том, как давно респондент является безра­ботным. Однако на практике возможности таких подходов существенно огра­ниченны. Чем более отдаленное прошлое нас интересует, тем больше мы ис­пытываем проблем с нехваткой данных и человеческой забывчивостью. Растут ошибки измерения. Панельные данные позволяют решить эту проблему, по­скольку человеку достаточно помнить события, происшедшие со времени по­следнего опроса, и обычно этот интервал не превышает одного года.

Третьим преимуществом панельных данных является возможность исполь­зовать большое число наблюдений. Если мы опрашиваем п респондентов в течение Т периодов, то выборка содержит и Г наблюдений. В случае NLSYmы имеем только 6000 респондентов в базовой выборке. Но к 2004 г. опрос прово­дился 19 раз, что в совокупности дает более 100 000 наблюдений. Более того, поскольку начинать подобные опросы и поддерживать их очень дорого, па­нельные данные часто хорошо структурированы и богаты по содержанию.

Панель называется сбалансированной, если для каждого респондента мы имеем одно наблюдение в каждый период. Соответственно, несбалансиро­ванной панель называется, если некоторые наблюдения в ней отсутствуют. В дальнейшем обсуждение проблем будет относиться в равной степени к обо­им типам. При использовании несбалансированной панели необходимо учи­тывать, что потери наблюдений могут быть эндогенными для модели. В этом случае сбалансированная панель, созданная в результате отбрасывания про­пущенных наблюдений, может перестать быть репрезентативной.

Пример использования панельных данных для исследования динамики

Исследования факторов, определяющих уровень заработной платы, пока­зывают, что женатые мужчины зарабатывают значительно больше, чем одино­кие. Одно из объяснений этого явления заключается в том, что наличие семьи увеличивает финансовую ответственность. К примеру, необходимость содер­жания детей заставляет мужчин работать усерднее и искать более высокоопла­чиваемую работу. Возможно также, что некоторые ненаблюдаемые качества, которые ценятся работодателями, ценятся также и потенциальными супру­гами. Тогда фиктивная переменная состояния в браке работает как замещаю­щая переменная для этих качеств. Существует также множество других объяс­нений, но мы ограничим наше внимание этими двумя. Для данных перекрест­ных выборок трудно рассматривать эти факторы независимо друг от друга. Однако панельные данные позволяют различать ситуацию, когда происходит рост заработной платы после создания семьи, как подсказывает нам гипотеза «прироста производительности» (increased productivity), или женатые мужчины получали более высокую заработную плату уже до вступления в брак, как утверждает гипотеза «ненаблюдаемой неоднородности» (unobserved heterogene­ity).

В 1988 г. NLSY содержал полную информацию (для всех переменных) о 1538 мужчинах, работавших 30 или более часов в неделю, которые одновре­менно не учились. Респонденты были разделены на три категории: 904 чело­века были уже женащ к 1988г. (фиктивная переменная MARRIED= 1); 212 че­ловек, которые в 1988 г. были одинокими, но женились в ближайшие 4 года (фиктивная переменная SOONMARR =1); оставшиеся 422 одиноких мужчины так и не женились в течение ближайших 4 лет (эталонная категория). Разве­денные респонденты были удалены из выборки. Была получена следующая функция заработка:

LGEARN = 0,163 MARRIED + 0,096 SOONMARR + (0,028) (0,037)

+ constant + controls; R2 = 0,27. (14.1)

Контрольные переменные: продолжительность обучения (в годах), уро­вень способностей (средний балл ASVABC), время работы у последнего рабо­тодателя и квадрат этой величины, возраст и квадрат возраста, фиктивные переменные для этнической принадлежности, региона проживания, статуса населенного пункта (городская или сельская местность).

Регрессия показывает, что те, кто были женаты в 1988 г., получали в сред­нем на 16,3% больше представителей эталонной категории (строго говоря, на 17,7%, поскольку пропорциональное увеличение вычисляется правильно как еодбз _ J) Хем не менее, гораздо больше нас интересует коэффициент пере­менной SOONMARR. При нулевой гипотезе о том, что предельный эффект брака — Динамический, и супружество побуждает мужчин работать больше, коэффициент SOONMARR должен быть равным нулю. Мужчины этой катего­рии были по-прежнему не женаты, как и в 1988 г. При этом /-статистика коэф­фициента 2,60 значима на уровне-0,1 %, что заставляет нас отвергнуть нулевую гипотезу на этом уровне.

Тем не менее, если верна альтернативная гипотеза, то коэффициент при SOONMARR должен быть равным коэффициенту при переменной MARRIED, но он ниже. Простейший метод протестировать значимость этого неравен­ства — изменить эталонную категорию и добавить новую фиктивную пере­менную SINGLE, которая равнялась единице, если респондент был нежена­тым в 198В г. и 4 года спустя. Эталонная категория будет включать тех, кто был уже женат к 1988 г. Тогда оценивается регрессия:

LGEARN = -0,163 SINGLE - 0,066 SOONMARR + constant + controls;

(0,028) (0,034)

R2 = 0,27. (14.2)

В этом случае коэффициент при SOONMARR оценивает разницу коэффи­циентов для тех, кто был женат в 1988 г, и тех, кто женился в течение следу­ющих 4 лет. Если в этом случае вторая гипотеза верна, то он должен быть ра­вен нулю. Его /-статистика равна -1,93, поэтому мы не можем (на грани) от­вергнуть здесь нулевую гипотезу на уровне 5% значимости. Ситуация в целом поддерживает скорее именно вторую гипотезу, однако не исключено, что ни одна из гипотез не верна и возможен какой-либо промежуточный вариант.

В следующем примере мы использовали данные из раундов ЫЬБУ1988 и 1992 гг. В большей части приложений с использованием панельных данных принято использовать данные из всех раундов, чтобы максимизировать число наблюдений в выборке. Для стандартной спецификации

к 1

+ + + (14.3)

У=2 р=\

где У — зависимая переменная; Х] — наблюдаемые независимые переменные; 2р — ненаблюдаемые независимые переменные. Индекс г означает номер рес­пондента, / означает период, индексы /и р используются, чтобы различать на­блюдаемые и ненаблюдаемые объясняющие переменные, ей — случайный член, удовлетворяющий обычным условиям регрессионной модели. Тренд / используется для обозначения изменений со временем постоянного члена. Если неявное предположение о постоянной скорости таких изменений ка­жется слишком сильным, то тренд может быть заменен набором фиктивных переменных, по одной — для каждого периода, за исключением эталонного.

Наибольший интерес здесь представляют переменные X., в то время как переменные отвечают за ненаблюдаемую неоднородность. Последующие объяснения будут сосредоточены на специальном случае, где можно доста­точно обоснованно предположить неизменность ненаблюдаемой неоднород­ности, и поэтому переменные 2р не нуждаются в дополнительном индексе для обозначения периода. Поскольку переменные 2р ненаблюдаемы, то нет необ­ходимости в исследовании компонента УрХр1 модели и удобнее переписать уравнение (14.3) как

У и = Р, + £р А + а,- + 8/ + е,„ (14.4)

где

г* 1

Величина ар известная как ненаблюдаемый эффект, отражает совместное влияние на Уг Поэтому удобно рассматривать агкак индивидуальный не­наблюдаемый эффект, где респондентом может быть не только индивид, но также домохозяйство или компания. Если а, коррелирует с любой из перемен­ных^., то оценки регрессии будут смещены из-за ненаблюдаемой неоднород­ности. Если ненаблюдаемый эффект не коррелирует ни с одной из объясняю­щих переменных, то его присутствие в общем случае провоцирует неэффек­тивность МНК и неправильные стандартные ошибки. Мы рассмотрим далее пути преодоления этих сложностей.

Тем не менее, заметим, что если контрольные переменные ^.включают все релевантные характеристики респондента, то не будет ни одной ненаблюда­емой характеристики. В этом случае член а, может быть опущен, и модель ре­грессии может использоваться для объединенной выборки, где все наблюде­ния разных периодов времени рассматриваются как единая выборка.

<< | >>
Источник: Доугерти К.. Введение в эконометрику: Учебник. 3-е изд. / Пер. с англ. — М.: ИНФРА-М, — XIV, 465 с. — (Университетский учебник).. 2009

Еще по теме 14.1. Введение:

  1. Введение
  2. ВВЕДЕНИЕ
  3. ВВЕДЕНИЕ
  4. Введение
  5. ВВЕДЕНИЕ
  6. Введение
  7. Введение
  8. ВВЕДЕНИЕ
  9. Введение
  10. ВВЕДЕНИЕ
  11. ВВЕДЕНИЕ
  12. Введение
  13. 1. ВВЕДЕНИЕ
  14. Введение в процедуру оценки
  15. 27.1. Необходимость введения водного налога
  16. 115. ЭКОНОМИЧЕСКИЕ ПОСЛЕДСТВИЯ ВВЕДЕНИЯ ТАРИФОВ
  17. ВВЕДЕНИЕ
  18. ВВЕДЕНИЕ