14.1. Введение
Поскольку панельные данные сочетают в себе признаки, как данных перекрестного типа, так и временных рядов, применение регрессионного анализа для эконометрических моделей с такими данными является более сложным, чем для перекрестных выборок/Тем не менее. панёльные данные все чаще используются в прикладных исследованиях, ицелью этой главы является краткое введение в эту область.
Более подробное представление данного вопроса можно найти в работах Сяо (Hsiao, 2003), Балтаджи (Baltagi, 2001) и Вулдрид- жа (Wboldiidge, 2002).Существует несколько причин растущего интереса к панельным данным. Одна из наиболее значимых заключается в том, что их использование может решить проблему смещенности, вызванной ненаблюдаемой неоднородностью данных, типичную проблему в использовании моделей для данных перекрестных выборок. Об этом будет сказано более подробно в следующем подразделе. .
Вторая причина — возможность использовать панельные данные для исследования динамики, которую трудно обнаружить в данных перекрестных выборок. К примеру, если есть данные пере1фестной выборки для взрослых респондентов, то можно увидеть, что часть людей работает, другая часть — безработные, остальные экономически неактивны.
Для принятия же решений может быть важно различие между фрикционной и долгосрочной безработицей. Фрикционная безработица неизбежна в меняющейся экономике, но долгосрочная безработица служит сигналом наличия социальных проблем, нуждающихся в решении. Формирование эффективной экономической политики, направленной на борьбу с долгосрочной безработицей, требует знания характеристик тех, кто подвержен этому явлению или находится в зоне риска. В принципе необходимую информацию в рамках перекрестной выборки может дать дополнительный вопрос о том, как давно респондент является безработным. Однако на практике возможности таких подходов существенно ограниченны. Чем более отдаленное прошлое нас интересует, тем больше мы испытываем проблем с нехваткой данных и человеческой забывчивостью. Растут ошибки измерения. Панельные данные позволяют решить эту проблему, поскольку человеку достаточно помнить события, происшедшие со времени последнего опроса, и обычно этот интервал не превышает одного года.Третьим преимуществом панельных данных является возможность использовать большое число наблюдений. Если мы опрашиваем п респондентов в течение Т периодов, то выборка содержит и Г наблюдений. В случае NLSYmы имеем только 6000 респондентов в базовой выборке. Но к 2004 г. опрос проводился 19 раз, что в совокупности дает более 100 000 наблюдений. Более того, поскольку начинать подобные опросы и поддерживать их очень дорого, панельные данные часто хорошо структурированы и богаты по содержанию.
Панель называется сбалансированной, если для каждого респондента мы имеем одно наблюдение в каждый период. Соответственно, несбалансированной панель называется, если некоторые наблюдения в ней отсутствуют. В дальнейшем обсуждение проблем будет относиться в равной степени к обоим типам. При использовании несбалансированной панели необходимо учитывать, что потери наблюдений могут быть эндогенными для модели. В этом случае сбалансированная панель, созданная в результате отбрасывания пропущенных наблюдений, может перестать быть репрезентативной.
Пример использования панельных данных для исследования динамики
Исследования факторов, определяющих уровень заработной платы, показывают, что женатые мужчины зарабатывают значительно больше, чем одинокие. Одно из объяснений этого явления заключается в том, что наличие семьи увеличивает финансовую ответственность. К примеру, необходимость содержания детей заставляет мужчин работать усерднее и искать более высокооплачиваемую работу. Возможно также, что некоторые ненаблюдаемые качества, которые ценятся работодателями, ценятся также и потенциальными супругами. Тогда фиктивная переменная состояния в браке работает как замещающая переменная для этих качеств. Существует также множество других объяснений, но мы ограничим наше внимание этими двумя. Для данных перекрестных выборок трудно рассматривать эти факторы независимо друг от друга. Однако панельные данные позволяют различать ситуацию, когда происходит рост заработной платы после создания семьи, как подсказывает нам гипотеза «прироста производительности» (increased productivity), или женатые мужчины получали более высокую заработную плату уже до вступления в брак, как утверждает гипотеза «ненаблюдаемой неоднородности» (unobserved heterogeneity).
В 1988 г. NLSY содержал полную информацию (для всех переменных) о 1538 мужчинах, работавших 30 или более часов в неделю, которые одновременно не учились. Респонденты были разделены на три категории: 904 человека были уже женащ к 1988г. (фиктивная переменная MARRIED= 1); 212 человек, которые в 1988 г. были одинокими, но женились в ближайшие 4 года (фиктивная переменная SOONMARR =1); оставшиеся 422 одиноких мужчины так и не женились в течение ближайших 4 лет (эталонная категория). Разведенные респонденты были удалены из выборки. Была получена следующая функция заработка:
LGEARN = 0,163 MARRIED + 0,096 SOONMARR + (0,028) (0,037)
+ constant + controls; R2 = 0,27. (14.1)
Контрольные переменные: продолжительность обучения (в годах), уровень способностей (средний балл ASVABC), время работы у последнего работодателя и квадрат этой величины, возраст и квадрат возраста, фиктивные переменные для этнической принадлежности, региона проживания, статуса населенного пункта (городская или сельская местность).
Регрессия показывает, что те, кто были женаты в 1988 г., получали в среднем на 16,3% больше представителей эталонной категории (строго говоря, на 17,7%, поскольку пропорциональное увеличение вычисляется правильно как еодбз _ J) Хем не менее, гораздо больше нас интересует коэффициент переменной SOONMARR. При нулевой гипотезе о том, что предельный эффект брака — Динамический, и супружество побуждает мужчин работать больше, коэффициент SOONMARR должен быть равным нулю. Мужчины этой категории были по-прежнему не женаты, как и в 1988 г. При этом /-статистика коэффициента 2,60 значима на уровне-0,1 %, что заставляет нас отвергнуть нулевую гипотезу на этом уровне.
Тем не менее, если верна альтернативная гипотеза, то коэффициент при SOONMARR должен быть равным коэффициенту при переменной MARRIED, но он ниже. Простейший метод протестировать значимость этого неравенства — изменить эталонную категорию и добавить новую фиктивную переменную SINGLE, которая равнялась единице, если респондент был неженатым в 198В г. и 4 года спустя. Эталонная категория будет включать тех, кто был уже женат к 1988 г. Тогда оценивается регрессия:
LGEARN = -0,163 SINGLE - 0,066 SOONMARR + constant + controls;
(0,028) (0,034)
R2 = 0,27. (14.2)
В этом случае коэффициент при SOONMARR оценивает разницу коэффициентов для тех, кто был женат в 1988 г, и тех, кто женился в течение следующих 4 лет. Если в этом случае вторая гипотеза верна, то он должен быть равен нулю. Его /-статистика равна -1,93, поэтому мы не можем (на грани) отвергнуть здесь нулевую гипотезу на уровне 5% значимости. Ситуация в целом поддерживает скорее именно вторую гипотезу, однако не исключено, что ни одна из гипотез не верна и возможен какой-либо промежуточный вариант.
В следующем примере мы использовали данные из раундов ЫЬБУ1988 и 1992 гг. В большей части приложений с использованием панельных данных принято использовать данные из всех раундов, чтобы максимизировать число наблюдений в выборке. Для стандартной спецификации
к 1
+ + + (14.3)
У=2 р=\
где У — зависимая переменная; Х] — наблюдаемые независимые переменные; 2р — ненаблюдаемые независимые переменные. Индекс г означает номер респондента, / означает период, индексы /и р используются, чтобы различать наблюдаемые и ненаблюдаемые объясняющие переменные, ей — случайный член, удовлетворяющий обычным условиям регрессионной модели. Тренд / используется для обозначения изменений со временем постоянного члена. Если неявное предположение о постоянной скорости таких изменений кажется слишком сильным, то тренд может быть заменен набором фиктивных переменных, по одной — для каждого периода, за исключением эталонного.
Наибольший интерес здесь представляют переменные X., в то время как переменные отвечают за ненаблюдаемую неоднородность. Последующие объяснения будут сосредоточены на специальном случае, где можно достаточно обоснованно предположить неизменность ненаблюдаемой неоднородности, и поэтому переменные 2р не нуждаются в дополнительном индексе для обозначения периода. Поскольку переменные 2р ненаблюдаемы, то нет необходимости в исследовании компонента УрХр1 модели и удобнее переписать уравнение (14.3) как
У и = Р, + £р А + а,- + 8/ + е,„ (14.4)
где
г* 1
Величина ар известная как ненаблюдаемый эффект, отражает совместное влияние на Уг Поэтому удобно рассматривать агкак индивидуальный ненаблюдаемый эффект, где респондентом может быть не только индивид, но также домохозяйство или компания. Если а, коррелирует с любой из переменных^., то оценки регрессии будут смещены из-за ненаблюдаемой неоднородности. Если ненаблюдаемый эффект не коррелирует ни с одной из объясняющих переменных, то его присутствие в общем случае провоцирует неэффективность МНК и неправильные стандартные ошибки. Мы рассмотрим далее пути преодоления этих сложностей.
Тем не менее, заметим, что если контрольные переменные ^.включают все релевантные характеристики респондента, то не будет ни одной ненаблюдаемой характеристики. В этом случае член а, может быть опущен, и модель регрессии может использоваться для объединенной выборки, где все наблюдения разных периодов времени рассматриваются как единая выборка.
Еще по теме 14.1. Введение:
- Введение
- ВВЕДЕНИЕ
- ВВЕДЕНИЕ
- Введение
- ВВЕДЕНИЕ
- Введение
- Введение
- ВВЕДЕНИЕ
- Введение
- ВВЕДЕНИЕ
- ВВЕДЕНИЕ
- Введение
- 1. ВВЕДЕНИЕ
- Введение в процедуру оценки
- 27.1. Необходимость введения водного налога
- 115. ЭКОНОМИЧЕСКИЕ ПОСЛЕДСТВИЯ ВВЕДЕНИЯ ТАРИФОВ
- ВВЕДЕНИЕ
- ВВЕДЕНИЕ