11.5. Предсказани
Предположим, что вы оценили модель
Г,= Р, + |Ы + и, на выборке из Г наблюдений временного ряда (/*= 1,..., 7):
У = Ь]+ЬЛГ
Имея некоторое послевыборочное значение переменной X, например Хт , вы можете предсказать соответствующее значение У:
YT+p = b\+b2XT+p>
Такие предсказания могут быть важными по двум причинам.
Во-первых, вы можете быть одним из тех эконометристов, чья работа — заглядывать в экономическое будущее. Некоторые эконометристы изучают экономические закономерности с целью улучшить наше понимание того, как работает экономика, но для других это является лишь средством достижения более практичной цели — предвидеть, что может случиться. Во многих странах макроэкономическое прогнозирование имеет высокую репутацию, и коллективы эконометристов поддерживаются министерствами финансов или другими правительственными органами, частными финансовыми учреждениями, университетами и исследовательскими институтами, и их предсказания активно используются для формирования и обсуждения государственной политики или в деловых целях. Когда подобные предсказания публикуются в печати, они, как правило, привлекают гораздо больше внимания, чем большинство других видов экономического анализа, в основном благодаря своей сути и тому, что в отличие от большинства других видов экономического анализа они легко могут быть поняты средним гражданином. Даже человек с совершенно нематематическим и нетехническим складом ума в состоянии понять, что подразумевается под оценками будущего уровня безработицы, инфляции и т.д.(11.52) |
Есть, однако, и другое применение эконометрического предсказания, которое делает его предметом заботы большинства эконометристов независимо от того, заняты они прогнозированием или нет.
Оно дает метод оценки устойчивости регрессионной модели, который имеет ббльшую исследовательскую направленность, чем диагностические статистики, использовавшиеся до сих пор.Прежде чем двигаться дальше, необходимо уточнить, что мы понимаем под предсказанием. К сожалению, в эконометрической литературе этот термин может иметь несколько различных значений, в соответствии с пониманием Хт в модели (11.52). Мы будем различать предсказания (ex post predictions) и прогнозы (forecasts). Это разделение сделано в соответствии с обычным использованием терминов, но, тем не менее, применяемая здесь терминология не вполне стандартная.
Мы используем для перевода термины «предсказание» и «прогноз» в соответствии с терминологией автора, которую он объясняет ниже (Прим. науч. ред.).
Предсказания
Мы опишем Ут+Р как предсказание, если значение Хт известно. Как это возможно? В общем случае эконометристы хотят включить все имеющиеся данные в свою выборку для максимизации ее размера и, как следствие, для минимизации дисперсии оценок, поэтому ^является последним зафиксированным значением Хна. момент оценки регрессии. Тем не менее, возможны две ситуации, когда Хт+р известны: когда вы ждете р или больше периодов после оценки регрессии или когда вы заранее ограничили период выборки так, чтобы у вас остались несколько последних наблюдений. Как мы увидим в следующем подразделе, весомой причиной так поступать может стать возможность без задержки оценить прогнозную точность модели.
Так, например, обращаясь снова к уравнению (3.39) модели связи общей инфляции и инфляции зарплаты, предположим, что для всего периода выборки мы оценили уравнение
£=1,0 + 0,8(4 (11.53)
гдер и н' — годовой уровень общей инфляции и инфляции зарплаты (в процентах) соответственно, и что мы знаем, что в один послевыборочный год уровень инфляции зарплаты составлял 6%. Тогда мы можем утверждать, что предсказанный уровень обшей инфляции равен 5,8%.
Мы, конечно, должны иметь возможность сразу сравнить его с действительным уровнем инфляции в этом году и рассчитать ошибку предсказания, которая равна разности между предсказанным и действительным значением. В общем случае, если Ут+р — действительное значение, а Ут+р — предсказываемое, то ошибка предсказания/т+р определяется как/т+р=УТ+р-УТ+р- (11.54)
Почему появляется ошибка предсказания? Это происходит по двум причинам. Во-первых, значение Ут+р было рассчитано с помощью оценок параметров и Ь2, вместо их реальных значений. Во-вторых, Уг+р не учитывает воздействие случайного члена ит+р, являющегося составной частью Ут+р. В дальнейшем мы будем предполагать, что данные включают (74 р) наблюдений переменных, из них первые /"наблюдений (период выборки) используются для построения регрессии, а последние р (период, или интервал предсказания) используются для анализа точности предсказания.
Пример
Предположим, что, когда мы оценивали функцию спроса на жилье по набору данных для оценивания функций спроса, мы использовали лишь первое 41 наблюдение из выборки, т.е. данные за 1959—1999 гг., оставив последние четыре наблюдения для анализа предсказаний. Полученное на выборке 1959—1999 гг. уравнение выглядит следующим образом (в скобках приведены стандартные ошибки):
ШЮПЗ = -0,30+ 1,04 ЮВР! - 0,42 ЮРШЮЮ; Я2 = 0,998. (11 55) (0,19) (0,01) (0,05)
Значения ШНОШдля периода 2000—2003 гг., предсказанные с помощью этого уравнения, при использовании действительных значений личного располагаемого дохода и относительных цен жилья в эти годы, показаны в табл. 11.6 вместе с фактическими значениями этой переменной и ошибками предсказания. Предсказания, как и исходные данные, приведены в логарифмической шкале. Для удобства в табл. 11.6 показаны также абсолютные значения (в млрд долл.) в ценах 2000 г., которые могут быть рассчитаны на основе логарифмических значений.
Таблица 11.6. Предсказанные и фактические расходы на жилье в 2000-2003 гг. Логарифмы Абсолютные значения
|
Мы можем видеть, что в этом случае предсказанные значения расходов на жилье превосходят фактические значения на 2,2—4,2%. Может ли такое предсказание считаться удовлетворительным? Мы обсудим это в следующем разделе.
Прогнозы
Если вы хотите предсказать конкретное значение Ут , не зная действительное значение Хт+р, то считается, что вы делаете прогноз (по крайней мере, если использовать терминологию этого текста). Макроэкономические предвидения, публикуемые в прессе, обычно являются в этом смысле прогнозами. Политиков, а в особенности широкую публику, мало интересуют «двусторонние» экономисты, рассуждения которых имеют вид «с одной стороны..., но если нет, то с другой стороны...». Обычно все желают точных однозначных оценок, дополненных, может быть, границами возможной ошибки, но часто даже и без этого. Прогнозы менее точны, чем предсказания, поскольку они подвержены воздействию дополнительного источника ошибки — предсказания значения Хт . Очевидно, что делающий прогноз эконометрист пытается, как правило, минимизировать эту дополнительную ошибку, моделируя как можно более точно поведение переменной X. Иногда для нее строят отдельную модель, иногда совмещают в одну модель уравнение для У и уравнение для X, дополняя их множеством других соотношений и оценивая получающуюся систему одновременных уравнений (что рассматривалось в гл. 9).
Свойства предсказаний, полученных с помощью МНК
В последующих рассуждениях мы сосредоточимся в основном на предсказаниях, а не на прогнозах, и обсудим свойства коэффициентов уравне
ния регрессии и свойства случайного члена, а не переменной X в случае, когда ее значения неизвестны. И в этом есть положительные моменты. Если значение Ут+/) порождается тем же процессом, что и выборочные значения переменной К (т.е. в соответствии с уравнением (11.50), где ит+р удовлетворяет предпосылкам регрессионной модели, и если мы строим наше предсказание Ут+р с помощью уравнения (11.52), то ошибка предсказания/^ будет иметь нулевое математическое ожидание и минимальную дисперсию. Первое свойство легко продемонстрировать:
Е(/т+р) = Е(Ут+р)-Е(Ут+р) =
= £(р, 4- $2Хт+р + ит+р) - Е(Ь\ + Ь2Хт+р) = = Р, + Р2*т+Р + Е(ит+р) - Щ) - Хт+рЕ(Ь2) = = (11.56)
поскольку £(/>,) = Р,, Е(Ь2) = Р2 и Е(ит+р) = 0. Мы не будем доказывать свойство минимума дисперсии. Доказательство можно найти у Дж. Джонстона и Дж. Динардо (1одоЮп, Отагс1о,1997). Оба эти свойства сохраняются и для общего случая множественного регрессионного анализа.
а2 |
т т |
/тч |
В случае уравнения парной регрессии теоретическая дисперсия/т определяется как
(П.57)
К^-л2
гдеХ и - X)2 — соответственно выборочное среднее значение и сумма квадратов отклонений переменной X. Из формулы следует, и это неудивительно, что чем больше значение ^отклоняется от выборочного среднего, тем больше теоретическая дисперсия ошибки предсказания. Из формулы также следует, и это вновь неудивительно, что чем больше объем выборки, тем меньше теоретическая дисперсия ошибки предсказания с нижним пределом, равным сг2. С ростом объема выборки оценки и Ь2 стремятся к истинным значениям соответствующих коэффициентов (в случае выполнения предпосылок модели), и единственным источником ошибки при предсказании будет случайный член ит+р, а он по определению имеет дисперсию а2.
Доверительные интервалы для предсказаний
Мы можем получить значение стандартного отклонения для ошибки предсказания, если заменим а2 в уравнении (11.57) на 52 и извлечем квадратный корень. Тогда отношение величины (Ут+р - Ут+р) к стандартной
ошибке при оценивании уравнения для периода выборки будет подчиняться /-распределению с числом степеней свободы (Т- к). Отсюда мы можем получить доверительный интервал для действительного значения Ут :
Ут+Р = 'крит X с.о. < Ут+Р < Ут+Р + Гкрит x с.о., (11.58)
где / п. — критическое значение Г при заданных уровне значимости и числе степеней свободе, а с.о. — стандартная ошибка предсказания. На рис. 11.3 в общем виде показано соотношение между доверительным интервалом для предсказания и значением объясняющей переменной.
![]() |
В уравнении множественной регрессии выражение, соответствующее (11.57), имеет гораздо более сложный вид, и оно лучше может быть представлено с помощью аппарата матричной алгебры. К счастью, имеется простой прием, который можно использовать для расчета значений стандартных ошибок при помощи компьютера. Обозначим период выборки как 1,..., Т, а период предсказания как Т+ 1,..., 74 Р. Вы оцениваете уравнение регрессии на выборке, совмещающей выборочный и прогнозный периоды, добавив (различные) фиктивные переменные для каждого из наблюдений периода предсказания. Это означает включение в модель набора фиктивных переменных От+,, /)г+2,..., йт+р, где значение йт+р равно нулю для всех
наблюдений, кроме наблюдения Т + р, для которого оно равно единице. Как может быть показано, оценки коэффициентов при нефиктивных переменных и их стандартные отклонения будут в точности такими же, как и в уравнении регрессии, оцененном только на периоде выборки (см. работы Д. Салкевера (5а1кеуег, 1976) и Ж.-М. Дюфора (ОиГоиг, 1980)). Компьютер использует фиктивные переменные для получения точного соответствия в каждом наблюдении периода предсказания, и он делает это путем приравнивания коэффициента при фиктивной переменной к ошибке предсказания, определенной выше. Стандартная ошибка этого коэффициента равна стандартной ошибке предсказания.
Пример
В табл. 11.7 представлены результаты оценивания логарифмической регрессии расходов на жилье на показатели дохода и относительных цен,
Dependent Variable: LGHOUS Method: Least Squares Sample: 1959 2003 Included observations: 45
|
с фиктивными переменными /ХЮ—/)03 для 2000—2003 гг. Коэффициенты при фиктивных переменных показывают ошибки предсказания, указанные в табл. 11.6. Предсказанный логарифм расходов на жилье в 2000 г. в табл. 11.6 равняется 6,956. Из распечатки регрессии видно, что стандартная ошибка предсказания для этого года составляет 0,017. Для 38 степеней свободы критическое значение /-статистики при 5%-ном уровне значимости равно 2,024, и мы получаем следующий 95%-ный доверительный интервал предсказания для данного года:
6,956 - 2,024 х 0,017 < У< 6,956 + 2,024 х 0,017, (11.59)
то есть
6,922 < У< 6,990. (11.60)
Доверительный интервал не включает фактическое значение (6,914), и, таким образом, по крайней мере, для этого года предсказание оказалось неудовлетворительным. Очевидное объяснение этому состоит в том, что мы использовали очень простую статическую модель для оценки расходов на жилье. Как мы убедимся в следующей главе, динамическая модель является более предпочтительной.
Упражнение
11.14. Воспользуйтесь косвенным методом Салкевера для расчета прогнозов и их стандартных ошибок для логарифмической функции спроса по вашей категории расходов. Добавьте фиктивные переменные для последних четырех наблюдений и тем самым определите ошибки предсказания для соответствующих лет на основе регрессии, оцененной по первому 41 наблюдению. Вычтите эти ошибки из фактических значений для получения прогнозов. Постройте доверительный интервал для прогноза на 2003 г.
Еще по теме 11.5. Предсказани:
- 10.7. Предсказание
- Предсказание поведения
- Другие виды предсказаний
- Глава 1Эволюция предсказаний и гаданий
- Точность предсказаний
- Предсказания по телефону
- Глава 4Сколько должны стоить предсказания
- «Клиент-наркоман»: одержимость предсказаниями
- Включенность в процесс предсказания
- Предсказания в любовной сфере
- Эффект хорошего сеанса предсказания
- Сопоставление предсказаний