<<
>>

2.8. Проверка гипотез, относящихся к коэффициентам регрессии

С чего начинается статистическое исследование — с теоретического по­строения гипотез или с эмпирического анализа? В действительности теория и практика обогащают друг друга, и подобные вопросы возникают.
Поэтому мы будем рассматривать вопрос о проверке гипотез с двух точек зрения. С одной стороны, мы можем предположить, что сначала идет теория и что цель экспе­римента заключается в выяснении ее применимости. Это приведет к проверке гипотезы о значимости. С другой стороны, мы можем сначала провести экс­перимент и затем определить, какие из теоретических гипотез соответствуют результатам эксперимента. Это приводит к построению доверительных ин­тервалов.

Вам уже известна логика, лежащая в основе построения критериев значи­мости и доверительных интервалов и описанная в вводном курсе статистики. Поэтому вы уже знакомы с большинством понятий, используемых в регресси­онном анализе. Однако один вопрос может оказаться для вас новым — это использование односторонних критериев. Такие критерии используются в регрессионном анализе очень часто. В самом деле, они являются, или должны быть, более обычными здесь, чем традиционно используемые в учебниках двусторонние критерии. Поэтому важно, чтобы вы поняли целесообразность их применения, и путь к этому состоит из последовательности небольших аналитических шагов. Ни один из них не должен представлять трудности, но следует иметь в виду, что если вы попытаетесь сократить свой путь, или, еще хуже, сделаете попытку свести всю процедуру к механическому использова­нию нескольких формул, вы столкнетесь с большими трудностями.

Формулирование нулевой гипотезы

Начнем с допущения о том, что теория предшествует эксперименту и что вы уже имеете в виду некоторую гипотетическую связь или зависимость. На­пример, вы можете считать, что темп общей инфляции в экономике {р, в %) зависит от темпа инфляции, вызванной ростом заработной платы (и>, в %), и что эта зависимость описывается линейным уравнением:

'хг
а: =

р = (3, + |32м> + и, (2.61)

где р, и р2 — параметры, а и — случайный член. Далее вы можете построить гипотезу о том, что без учета эффектов, вносимых случайным членом, общая инфляция увеличивается в той же степени, что и инфляция, вызванная рос­том заработной платы. В этих условиях вы можете сказать, что гипотеза, кото­рую вы собираетесь проверять, известная как ваша нулевая гипотеза и обозна­ченная Я0, состоит в том, что (32 равняется единице. Мы также определяем альтернативную гипотезу, обозначаемую Я,, которая представляет заключение, которое делается в том случае, если экспериментальная проверка указала на ложность #0. В данном случае эта гипотеза состоит в том, что Р2 ф 1. Две гипо­тезы сформулированы с использованием следующих обозначений:

Я0: р2 = 1;

Я,:р2*1.

В этом конкретном случае, если мы действительно считаем, что общая ин­фляция равна инфляции, вызванной ростом заработной платы, мы делаем по­пытку защитить нулевую гипотезу Я0, подвергнув ее максимально строго»' проверке и надеясь, что она не будет опровергнута.

Однако на практике более обычным является построение нулевой гипотезы, которая затем будет прове­ряться с помощью альтернативной гипотезы, которая предполагается верной Например, рассмотрим простую функцию заработка:

EARNINGS = Р, + Р25+ и, (2.62 >

где EARNINGS — часовой заработок в долларах, a S — число законченных ле- обучения. Исходя из вполне разумных теоретических оснований, вы предпо­лагаете, что заработок зависит от продолжительности обучения, но ваша тео­рия недостаточно «сильна», чтобы можно было определить конкретное значе­ние для р2. Тем не менее, вы можете установить наличие зависимости величи­ны заработка от S, используя для этого обратную процедуру, когда в качеств? нулевой гипотезы принимается утверждение о том, что величина заработка не зависит от S, т.е. что р2 равняется нулю. Альтернативная гипотеза заключаете» в том, что величина Р2 не равняется нулю, иными словами, что величина 5 влияет на размер заработка. Если вы можете отвергнуть нулевую гипотезу, то вы таким образом устанавливаете наличие зависимости, по крайней мере ъ общих чертах. С использованием введенной системы обозначений, ваши ну­левая и альтернативная гипотезы примут вид Я0: Р2 = 0 и Я,: р2^ 0 соответ­ственно.

Последующий анализ касается модели парной регрессии

^р. + р^. + к, (2.63.

Он будет относиться только к коэффициенту наклона Р2, но точно такие же процедуры применимы и к постоянному члену р,. Возьмем общий случай, г котором в нулевой гипотезе утверждается, что Р2 равно некоторому конкрет­ному значению, например р^, и альтернативная гипотеза состоит в том, что р. не равно этому значению (Я0: р2 = р°2; Я,: Р2 ф р^). Вы можете предпринят» попытку отклонить или подтвердить нулевую гипотезу, в зависимости от того, что вам необходимо в данном случае. Будем считать, что предпосылки в разде­ле 2.2 выполнены.

Вывод следствий гипотезы

Если гипотеза #0 верна, то значения Ь2, полученные в ходе регрессионного анализа, будут иметь распределение с математическим ожиданием р°2 и дис­персией а2и /^(Х' • Теперь мы вводим допущение, что случайный член и

имеет нормальное распределение. Если это так, то величина Ь2 будет также нормально распределена, как показано на рис. 2.6. Сокращение «бс!» на ри­сунке соответствует величине стандартного отклонения оценки Ь2, т.е.

• Учитывая структуру нормального распределения, боль­шинство оценок параметра Ь2 будет находиться в пределах двух стандартных отклонений от Р^ (если гипотеза Н^. р2 = р^ верна).

Сначала мы допустим, что знаем величину стандартного отклонения вели­чины Ь2. Это наиболее нереалистичное допущение, и мы позднее отбросим его. На практике же значение этого отклонения (так же, как и неизвестные значе­ния параметров р, и р2) подлежит оценке. Можно, тем не менее, упростить об­суждение, предположив, что точное значение отклонения известно, и, следова­тельно, у нас есть возможность построить график, показанный на рис. 2.6.

Проиллюстрируем это на примере модели связи общей инфляции и инф­ляции, вызванной ростом заработной платы (2.61). Предположим, что неко­торым образом мы знаем, что стандартное отклонение величины Ь2 составляет 0,1. Тогда, если нулевая гипотеза #0: р2 = 1 верна, то оценки коэффициентов регрессии будут распределены так, как это показано на рис. 2.7. Из этого ри­сунка можно видеть, что при справедливости нулевой гипотезы оценки будут находиться приблизительно между 0,8 и 1,2.

Сопоставимость, случайность и уровень значимости

Теперь приступим к главному. Предположим, что мы взяли фактическую выборку из наблюдений общей инфляции и инфляции, вызванной ростом за-

Функция плотности вероятности Ь2

Рисунок 2.6. Структура нормального распределения оценки Ь2 в единицах стандартных отклонений от математического ожидания


Функция плотности

Рисунок 2.7. Пример распределения величины Ь2 (модель связи общей инфляции и инфляции, вызванной ростом заработной платы)


работной платы, и построили оценку (32, используя для этого регрессионны»- анализ. Если оценка близка к единице, то мы должны быть полностью удов­летворены нулевой гипотезой, так как она и результат оценивания для выбор­ки совместимы друг с другом. Предположим, с другой стороны, что оценка значительно отличается от единицы. Допустим, например, что она равна 0,7 Это составит три стандартных отклонения вниз от 1,0. Если нулевая гипотеза верна, то вероятность того, что отличие Ь2 от среднего достигнет трех стандар­тных отклонений в положительную или отрицательную сторону, составляет лишь 0,0027, т.е. очень низка. Исходя из этого вызывающего беспокойство ре­зультата, вы можете прийти к одному из двух выводов:

1. Вы можете продолжать считать, что ваша нулевая гипотеза #0: р2 = 1 вер­на и что эксперимент дал случайный результат. Вы допускаете, что вероят­ность получения такого низкого значения для Ь2 является очень небольшой, но, тем не менее, она имеет место в 0,27% случаев, и вы допускаете, что это именно тот случай.

2. Вы можете сделать вывод о том, что гипотеза противоречит результат) оценивания регрессии. Вы не удовлетворяетесь объяснением, данным б пункте 1, так как вероятность очень мала, и понимаете, что наиболее правдо­подобным объяснением является то, что величина р2 вовсе не равняется еди­нице. Другими словами, вы принимаете альтернативную гипотезу Я,: (32 ф 1.

Каким образом вы определите, когда необходимо выбрать первый вывод, г когда — второй? Очевидно, что чем меньше вероятность получения регрес­сии, подобной той, которую вы получили при условии правильности вашей гипотезы, тем больше вероятность вашего отказа от гипотезы и тем очевиднее переход ко второму выводу. Насколько малой должна быть указанная вероят­ность для выбора второго вывода?

На этот вопрос нет и не может быть определенного ответа. В большинстве работ по экономике за критический уровень берется 5 или 1%. Если выбира­ется уровень 5%, то переключение на второй вывод происходит в том случае, когда при истинности нулевой гипотезы вероятность получения столь экстре­мального значения для Ь2 составляет менее 5%. В этом случае говорят, что ну­левая гипотеза должна быть отвергнута при 5%-ном уровне значимости.

Это происходит в том случае, когда величина Ь2 отстоит от величины (3" более чем на 1,96 стандартного отклонения. Если вы посмотрите на таблицу нормального распределения (табл. А.1 в Приложении А), то вы увидите, что вероятность того, что величина Ь2 будет превосходить среднее значение на бо­лее чем 1,96 стандартного отклонения, составляет 2,5%, и, аналогичным обра­зом, вероятность того, что эта величина будет более чем на 1,96 стандартного отклонения ниже среднего значения, также составляет 2,5%. Общая вероят­ность того, что данная величина отстоит от математического ожидания более чем на 1,96 стандартного отклонения, составляет, таким образом, 5%. Мы мо­жем обобщить это решающее правило в математической форме, полагая, что нулевая гипотеза отвергается, если:

1,96 или т. < -1,96, (2.64)

где £ — число стандартных отклонений между регрессионной оценкой и гипо­тетическим значением для Р2:

Разница между оценкой регрессии

и гипотетическим значением ---------------------

Стандартное отклонение величины Ь2

Нулевая гипотеза не будет отвергнута, если

-1,96 ничиться только одним уровнем? Причина заключается в том, что обычно дг- лается попытка найти баланс между риском допущения ошибок I и II ролл Ошибка I рода имеет место в том случае, когда вы отвергаете истинную нум

вую гипотезу. Ошибка Ирода возникает тогда, когда вы не отвергаете ложную гипотезу.

Очевидно, что чем ниже критическая вероятность, тем меньше риск полу­чения ошибок I рода. Если вы используете уровень значимости, равный 5%, то вы будете отвергать истинную гипотезу в 5% случаев. Если уровень значи­мости составляет 1%, то вы будете делать ошибку I рода в 1% случаев. Таким образом, в этом отношении 1%-ный уровень значимости более надежен. Если вы отвергли гипотезу на этом уровне, вы почти наверняка были вправе сде­лать это. Именно по этой причине 1%-ный уровень значимости описывается как «более высокий» в сравнении с 5%-ным уровнем.

В то же время, если нулевая гипотеза ложна, то чем выше ваш уровень зна­чимости, тем шире ваша область принятия гипотезы, тем выше вероятность того, что вы не отвергнете ее, и тем выше риск допущения ошибки II рода. Таким образом, вы оказываетесь перед дилеммой. Если вы будете настаивать на очень высоком уровне значимости, то столкнетесь с относительно высо­ким риском допущения ошибки II рода, если гипотеза окажется ложной. Если вы выбираете низкий уровень значимости, то оказываетесь перед относитель­но высоким риском допущения ошибки I рода, если гипотеза истинна.

Большинство людей выбирают достаточно простую форму обеспечения га­рантий и осуществляют проверку на обоих уровнях значимости, представляя результаты каждой такой проверки. На самом деле часто нет никакой необхо­димости непосредственно ссылаться на оба результата. Так как величина Ь, должна быть более «экстремальной» для гипотезы, отвергаемой при 1%-ном уровне значимости, чем при 5%-ном, и если вы отклоняете ее при 1%-ном уровне, то из этого автоматически следует, что вы отклоните ее и при уровне значимости в 5%, и нет необходимости упоминать об этом. Если же вы не от­вергаете гипотезу при уровне значимости в 5%, то из этого автоматически сле­дует, что вы не отвергнете ее и при 1 %-ном уровне значимости. Только в одном случае вы должны представить оба результата: если гипотеза отвергается на 5%-ном, но не на 1%-ном уровне значимости.



*-ЄС7Ь/



с.о .(Ь2)

До сих пор мы считали, что стандартное отклонение величины Ь2 известно. Однако на практике это допущение нереально. Это можно показать на приме­ре стандартной ошибки для величины Ь2, взятой из уравнения (2.44). Это при­водит к двум изменениям процедуры проверки гипотез. Во-первых, величи­на I определяется на основе использования стандартной ошибки с.о,(Ь2) вмес­то стандартного отклонения з.с1.(62) и носит название Г-статистики:

(2.71)

Во-вторых, критические уровни ґ определяются величиной, имеющей так называемое /-распределение вместо нормального распределения. Мы не бу­дем вдаваться в причины этого или даже описывать /-распределение матема­тически. Достаточно будет сказать, что оно родственно нормальному распре­делению, а его точная форма зависит от числа степеней свободы в регрессии,

и оно все лучше аппроксимируется нормальным распределением по мере ук личения числа степеней свободы. Вы, конечно, уже встречали понятие /-ра: пределения во вводном курсе статистики. В табл. А.2 Приложения А предстаз лены критические значения для г, сгруппированных по уровням значимости числу степеней свободы.

Оценивание каждого параметра в уравнении регрессии поглощает о; степень свободы в выборке. Отсюда число степеней свободы равняется чис наблюдений в выборке минус число оцениваемых параметров. Параметра** являются постоянный член (при условии, что он введен в модель регрессии коэффициенты при независимых переменных. В рассматриваемом слу парной регрессии оцениваются только два параметра (3, и (32, поэтому чис степеней свободы составляет (п - 2). Следует подчеркнуть, что когда мы пг^ рейдем к множественному регрессионному анализу, потребуется более обш: выражение.

Критическое значение для t, которое мы обозначим как /крит, заменит чи: ло 1,96 в уравнении (2.67). Задача Г-теста состоит в том, чтобы сравнить Г-с:> тистику и ?крит. Таким образом, условие того, что оценка регрессии не дол* приводить к отказу от нулевой гипотезы Н0: р2 = будет следующим:



(2.-ГІ
-/
крит-

крит —

с.о \Ь2)



Следовательно, мы имеем правило для принятия решения: #,, отвергаете



>/крит, и она не отвергается, если

с.о.(Ь2)

<< | >>

Еще по теме 2.8. Проверка гипотез, относящихся к коэффициентам регрессии:

  1. 3.7. Проверка гипотез, относящихся к коэффициентам регрессии
  2. 2.СВОЙСТВА КОЭФФИЦИЕНТОВ РЕГРЕССИИ И ПРОВЕРКА ГИПОТЕЗ
  3. 3. СВОЙСТВА КОЭФФИЦИЕНТОВ РЕГРЕССИИ И ПРОВЕРКА ГИПОТЕ
  4. 3.1. Случайные составляющие коэффициентов регрессии
  5. § 16.7.2. Испытание гипотезы для оценки линейности связи на основе показателя наклона линейной регрессии
  6. 3.3. Свойства коэффициентов множественной регрессии
  7. 5.4. Свойства коэффициентов множественной регрессии
  8. 2.3. Случайные составляющие коэффициентов регрессии
  9. Несмещенность коэффициентов регрессии
  10. 3.5. Точность коэффициентов регрессии
  11. 3.2. Вывод и интерпретация коэффициентов множественной регрессии