2.1. Типы данных и регрессионная модель
Мы будем применять методы регрессионного анализа к данным трех видов: перекрестным выборкам, временным рядам и панельным данным. Данные перекрестной выборки относятся к наблюдаемым объектам в одну и ту же единицу времени. Наблюдаемыми объектами могут быть индивиды, домохозяйства, предприятия, страны и множество других элементов, достаточно однородных по своей природе, чтобы использовать их для изучения предполагаемых зависимостей. Данные временнбго ряда состоят из повторяющихся наблюдений одного и того же объекта, обычно с постоянным интервалом межд% наблюдениями.
Примеры из области макроэкономики — квартальные данные по валовому внутреннему продукту, потреблению, денежной массе, процентным ставкам. Панельные данные, которые могут быть представлены как комбинация данных перекрестной выборки и временных рядов, состоят из повторяющихся наблюдений одних и тех же объектов во времени. Пример — данные Всеамериканского опроса молодежи {US National Longitudinal Survey oj Youth — NLSY), использованные для интерпретации регрессионной модели б разделе 1.6. Эти данные включают наблюдения над одними и теми же индивидами с 1979 г. до настоящего времени, которые до 1994 г. собирались ежегодно, а затем — раз в два года.Следуя подходу Р. Давидсона (Davidson, 2000), мы будем рассматривать три вида регрессионной модели.
Модель А (для регрессий по данным перекрестных выборок): регрессоры (объясняющие переменные) являются нестохастическими, т.е.
их значения б наблюдениях выборки не содержат стохастических (случайных) составляющих. Они будут рассмотрены далее во Вставке 2.1.2.1. Нестохастические регрессоры
В первой части этой книги, вплоть до гл. 8, мы полагаем, что регрессоры •объясняющие переменные) в модели не содержат стохастических составлявших. Это делается для упрощения анализа. В действительности трудно себе зрел ставить реальные нестохастические переменные, кроме переменной времени, и поэтому нижеследующий пример выглядит несколько искусственным. Предположим, что мы связываем размер заработка с продолжительностью обучения определяемой как число полных лет обучения. Предположим, что из £жных национальной переписи нам известно, что 1% населения имеет 5 = 8; 3% имеют 5 = 9; 5% имеют5= 10; 7% имеют5= 11; 43% имеют£= 12(что соответствует окончанию средней школы) и т.д. Предположим, что мы решили слелать выборку размером в 1000 наблюдений, желательно— как можно более эолно соответствующую генеральной совокупности. В этом случае мы можем слелать так называемую стратифицированную случайную выборку, включаю- ■ую 10 индивидов с ^ — 8; 30 индивидов — с 5 = 9 и т.д. Значения £ в такой аыборке были бы предопределенными и, следовательно, нестохастическими. В больших выборках, полученных таким образом, чтобы они представляли население в целом, как, например, NLSY, вероятно, продолжительность обучения ■ другие демографические переменные достаточно полно соответствуют этому требованию. В гл. 8 мы признаем ограничивающий характер данной предпосылки и заменим ее на предпосылку о том, что значения регрессоров получены кз заданных распределений.
Модель В (также для регрессий по данным перекрестных выборок): значения регрессоров получены случайным образом и независимо друг от друга из заданных генеральных совокупностей.
Модель С (для регрессий по данным временных рядов): значения регрессоров могут демонстрировать инерционность во времени. Смысл понятия «инерционный во времени» мы поясним в гл. 11 — 13 при рассмотрении регрессий по данным временных рядов.
Регрессии с панельными данными могут рассматриваться как расширение модели В.
Большая часть этой книги посвящена регрессиям по данным перекрестных выборок, т.е. моделям А и В. Причина этого заключается в том, что регрессии по данным временных рядов потенциально включают сложные технические аспекты, которых вначале лучше избежать.
Начнем с модели А, исключительно для удобства анализа. Это позволит нам провести обсуждение регрессионного анализа в рамках довольно простой схемы, известной как классическая модель линейной регрессии. Мы заменим эту схему в гл. 8 более слабым и более реалистичным допущением, подходящим для регрессий по данным перекрестных выборок, о том, что переменные »формируются как случайные выборки из заданных генеральных совокупностей.
Еще по теме 2.1. Типы данных и регрессионная модель:
- 14.2. Регрессионные модели с фиксированным эффектом
- 2.2. Предпосылки регрессионной модели с нестохастическими регрессорами
- 12.1. Допущения для регрессионных моделей с временными рядами
- 12.СВОЙСТВА РЕГРЕССИОННЫХ МОДЕЛЕЙ С ВРЕМЕННЫМИ РЯДАМИ
- 2.1.3. Концептуальные модели данных
- 6.5. Основные типы анализа данных
- 7.7.3. Типы закономерностей данных, используемые в Data Mining
- 2.1.4. Реляционная модель данных
- 5.5.1 Концептуальная модель данных
- 5.2.2. ОБЪЕКТНАЯ МОДЕЛЬ БАЗ ДАННЫХ
- 5.2.1. РЕЛЯЦИОННАЯ МОДЕЛЬ БАЗ ДАННЫХ
- Связи между моделью данных и административными бизнес-процессами
- 4.7.1. МОДЕЛИ ОТОБРАЖЕНИЯ ДАННЫХ
- 4.4 Результативность и эффективность файлов данных (картотек, массивов данных)
- 3.11. Взаимосвязи между критериями в парном регрессионном анализе
- Корреляционный и регрессионный анализ
- 2. ПАРНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
- 5. МНОЖЕСТВЕННЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ