<<
>>

3.5. Точность коэффициентов регрессии

Рассмотрим теперь теоретические дисперсии оценок а и Ь. Они задаются сле­дующими выражениями (доказательства для эквивалентных выражений можно найти в работе Дж. Томаса [Thomas, 1983, section 8.3.3]):

p0pVar(û) = 4{1 + vêw} И popVarW = ^è)' (3-25)

Из уравнения (3.25) можно сделать три очевидных заключения. Во-первых, дисперсии а и Ъ прямо пропорциональны дисперсии остаточного члена а2. Чем больше фактор случайности, тем хуже будут оценки при прочих равных усло­виях.

Это уже было проиллюстрировано в экспериментах по методу Монте-Карло в разделе 3.2. Оценки в серии II были гораздо более неточными, чем в серии I, и это произошло потому, что в каждой выборке мы удвоили случайный член. Удвоив и, мы удвоили его стандартное отклонение и, следовательно, удвоили стандартные отклонения а и Ь. Во-вторых, чем больше число наблюдений, тем меньше дисперсии оценок. Это также имеет определенный смысл. Чем большей информацией вы располагаете, тем более точными, вероятно, будут ваши оценки. В-третьих, чем больше дисперсия х, тем меньше будет дисперсия коэффици­ентов регрессии. В чем причина этого? Напомним, что (1) коэффициенты рег­рессии вычисляются на основании предположения, что наблюдаемые измене­ния у происходят вследствие изменений х, но (2) в действительности они лишь отчасти вызваны изменениями х, а отчасти вариациями и. Чем меньше дис­персия х, тем больше, вероятно, будет относительное влияние фактора слу­чайности при определении отклонений у и тем более вероятно, что регрес­сионный анализ может оказаться неверным. В действительности, как видно из уравнения (3.25), важное значение имеет не абсолютная, а относительная ве­личина а2 и Уаг (х).

На практике мы не можем вычислить теоретические дисперсии а или Ь, так как а2 неизвестно, однако мы можем получить оценку а2 на основе остатков. Очевидно, что разброс остатков относительно линии регрессии будет отра­жать неизвестный разброс и относительно линии у = а + рх, хотя в общем остаток и случайный член в любом данном наблюдении не равны друг другу. Следовательно, выборочная дисперсия остатков Уаг (е), которую мы можем измерить, сможет быть использована для оценки а2, которую мы получить не можем.

Прежде чем пойти дальше, задайте себе следующий вопрос: какая прямая будет ближе к точкам, представляющим собой выборку наблюдений по х и у: истинная прямая>> = а + Рх или линия регрессии >> = а + йх? Ответ будет таков: линия регрессии, потому что по определению она строится таким образом, чтобы свести к минимуму сумму квадратов расстояний между ней и значени­ями наблюдений. Следовательно, разброс остатков у нее меньше, чем разброс значений и, и Уаг (е) имеет тенденцию занижать оценку а2. Действительно, мож­но показать, что математическое ожидание Уаг (е), если имеется всего одна не­зависимая переменная, равно [(п — 2)/п] а2. Однако отсюда следует, что если оп­ределить 52 как

то а2 будет представлять собой несмещенную оценку а2 (см. доказательство в работе Дж. Томаса).

и с.о.(А)= И—^
лУаг(х)
(3.27)
Если воспользоваться компьютерной программой оценивания регрессии, то стандартные ошибки будут подсчитаны автоматически одновременно с оцен­ками а и Ь.

Полученные соотношения будут проиллюстрированы экспериментами по методу Монте-Карло, описанными в разделе 3.2. В серии I и определялось на основе случайных чисел, взятых из генеральной совокупности с нулевым сред­ним и единичной дисперсией (а2 = 1), ах представлял собой набор чисел от 1 до 20. Можно легко вычислить Уаг (х), которая равна 33,25. Следовательно,

рор.Уаг(а) = ±|1 + 1^и,2158 (3.28)

Используя уравнения (3.25) и (3.26), можно получить оценки теоретических дисперсий для а и Ь и после извлечения квадратного корня — оценки их стан­дартных отклонений. Вместо слишком громоздкого термина «оценка стандарт­ного отклонения функции плотности вероятности» коэффициента регрессии будем использовать термин «стандартная ошибка» коэффициента регрессии, которую в дальнейшем мы будем обозначать в виде сокращения «с. о.» Таким образом, для парного регрессионного анализа мы имеем:

pop. var(£) = 2Qx133>25 = 0,001504. (3.29)

Таким образом, истинное стандартное отклонение для Ъ равно д/0,001504 =

= 0,039. Какие же результаты получены вместо этого компьютером в 10 экспе­риментах серии I? Он должен был вычислить стандартную ошибку, исполь­зуя уравнение (3.27); результаты этих расчетов для 10 экспериментов пред­ставлены в табл. 3.5. Как видите, большинство оценок достаточно хороши.

Таблица 3.5
Эксперимент с.о.(Ь) Эксперимент с.о.(Ь)
1 0,043 6 0,044
2 0,041 7 0,039
3 0,038 8 0,040
4 0,035 9 0,033
5 0,027 10 0,033

Следует подчеркнуть один основной момент. Стандартная ошибка дает толь­ко общую оценку степени точности коэффициента регрессии. Она позволяет вам получить некоторое представление о кривой функции плотности вероят­ности, как показано на рис. 3.1. Однако она не несет информации о том, на­ходится ли полученная оценка в середине распределения и, следовательно, является точной или в «хвосте» распределения и, таким образом, относитель­но неточна.

Чем больше дисперсия случайного члена, тем, очевидно, больше будет вы­борочная дисперсия остатков и, следовательно, существеннее стандартные ошиб­ки коэффициентов в уравнении регрессии, что позволяет с высокой вероятно­стью заключить, что полученные коэффициенты неточны. Однако это всего лишь вероятность. Возможно, что в какой-то конкретной выборке воздей­ствия случайного фактора в различных наблюдениях будут взаимно погаше­ны и в конечном итоге коэффициенты регрессии будут точны. Проблема со­стоит в том, что, вообще говоря, нельзя утверждать, произойдет это или нет.

Упражнения

В тех случаях, когда результат какой-то игры, требующей определенного умения, измеряется числом, повышение уровня игры, достигаемое постоян­ной практикой, можно представить графически с помощью так называемой кривой обучения.

Это особенно наглядно для видеоигр, когда играющий в ре­альном времени управляет объектом, который атакует и защищается от дру­гих объектов, управляемых программой. Тот, кто первый раз участвует в та­кой игре, обычно проигрывает уже через несколько секунд. Чем больше вы будете играть, тем скорее привыкнете к игре и тем большее количество очков вы будете набирать, хотя очевидно, что могут иметь место некоторые откло­нения, вызванные фактором случайности. Предположим, что количество очков определяется кривой обучения

у = 500 + ЮОх + и,

где у — результат очередной игры, х — число игр, проведенных игроком до текущей игры (порядковый номер текущей игры минус единица), и и — слу­чайный член.

В следующей таблице приведены результаты первых 20 игр нового игрока: х автоматически изменяется от 0 до 19; в качестве значений и были взяты чис­ла, полученные с помощью генератора нормально распределенных случайных чисел с нулевым средним и единичной дисперсией, которые были затем ум­ножены на 400; величина у определялась через значения х к и в соответствии с линейной кривой обучения.

Наблюдение X и У Наблюдение X и У
1 0 -236 264 11 10 636 2136
2 1 -96 504 12 11 -368 1232
3 2 -332 368 13 12 -284 1416
4 3 12 812 14 13 -100 1700
5 4 -152 748 15 14 676 2576
6 5 -876 124 16 15 60 2060
7 6 412 1512 17 16 8 2108
8 7 96 1296 18 17 -44 2156
9 8 1012 2312 19 18 -364 1936
10 9 -52 1348 20 19 -568 2968

Оценивая регрессию между у их, получим уравнение (в скобках указаны стандартные ошибки):

у = 369 + 116,8х.

(190) (17,1)

3.1. Почему постоянный член в этом уравнении не равен 500, а коэффици­ент перед х не равен 100?

3.2. Каковы значения стандартных ошибок?

3.3. Эксперимент повторяется с 9 другими новыми игроками (в каждом слу­чае случайный член получают путем умножения на 400 разных наборов из 20 случайных чисел), а результаты оценивания регрессии для всех 10 игроков при­ведены в следующей таблице. Почему постоянный член, коэффициент при х и их стандартные ошибки меняются от выборки к выборке?

Игрок Постоянная с. о.

ПОСТОЯННОЙ

Коэффициент при X с.о.

коэффициента при X

1 369 190 116,8 17,1
2 699 184 90,1 16,5
3 531 169 78,5 15,2
4 555 158 99,5 14,2
5 407 120 122,6 10,8
6 427 194 104,3 17,5
7 412 175 123,8 15,8
8 613 192 95,8 17,3
9 234 146 130,1 13,1
10 485 146 109,6 13,1

3.4. Дисперсия х равна 33,25, а дисперсия и равна 160 ООО. Используя урав­нение (3.25), покажите, что стандартное отклонение функции плотности ве­роятности коэффициента при х равно 15,5. Являются ли приведенные в таб­лице стандартные ошибки хорошими оценками стандартного отклонения?

<< | >>
Источник: Доугерти К.. Введение в эконометрику: Пер. с англ. — M.: ИНФРА-М, — XIV, 402 с.. 1999

Еще по теме 3.5. Точность коэффициентов регрессии:

  1. 2.6. Точность коэффициентов регрессии
  2. 3.3. Свойства коэффициентов множественной регрессии
  3. Несмещенность коэффициентов регрессии
  4. 5.4. Свойства коэффициентов множественной регрессии
  5. 3.1. Случайные составляющие коэффициентов регрессии
  6. 2.3. Случайные составляющие коэффициентов регрессии
  7. 3.2. Вывод и интерпретация коэффициентов множественной регрессии
  8. 5.2. Вывод и интерпретация коэффициентов множественной регрессии
  9. 8.2. Свойства оценок коэффициентов регрессии по МНК в случае конечной выборки
  10. 3.4. Несмещенность коэффициентов регрессии
  11. 3. СВОЙСТВА КОЭФФИЦИЕНТОВ РЕГРЕССИИ И ПРОВЕРКА ГИПОТЕ
  12. 3.7. Проверка гипотез, относящихся к коэффициентам регрессии