<<
>>

5.2.Обобщение для фиктивных переменных более чем двух категорий и их нескольких наборов

В предыдущем разделе мы использовали фиктивную переменную для про­ведения различия между обычными и профессиональными школами при оце­нивании функции издержек. В действительности в Шанхае имеется два тига обычных средних школ.
Это общеобразовательные школы, дающие стандарт­ное академическое образование, и специализированные школы. В соответ­ствии со своим названием специализированные школы наряду с академичес­ким образованием дают некоторые специальные профессиональные навыки Однако профессиональная составляющая учебных планов в них обычно очен* мала, поэтому реально эти школы близки к обычным общеобразовательны« Часто эти обычные общеобразовательные школы имеют пару мастерские Имеется также и два типа профессиональных школ. Это технические школь для подготовки техников и школы для подготовки квалифицированных рабо­чих.

Итак, теперь качественная переменная содержит четыре категории, и по­этому нужно ввести более детальный набор фиктивных переменных. Стан­дартная процедура состоит в выборе эталонной категории, к которой относите! исходное уравнение, с последующим определением фиктивных переменньп для других категорий.

Вообще говоря, лучше всего в качестве эталонной вы­брать преобладающую или наиболее естественную категорию, если такова» имеется. В нашем примере мы выберем общеобразовательные школы. Он* наиболее многочисленны в Шанхае, а все остальные школы являются их мо­дификациями.

Определим, соответственно, фиктивные переменные и для трех других ка­тегорий. Переменная ТЕСЕ— фиктивная для технических школ: ТЕСНравн> единице, если данное наблюдение относится к технической школе, и нулю - в противном случае. Аналогично определяются фиктивные переменны:

WORKER для школ подготовки квалифицированных рабочих и VOC — для специализированных школ. Регрессионная модель теперь приобретает вид

COST= ß, + 5 тТЕСН+ bwWORKER + 5 vVOC+ ß2TV + и, (5.10)

где коэффициенты Ьт, и 5К отражают дополнительные постоянные из­держки для технических школ, школ подготовки квалифицированных рабо­чих и специализированных школ по сравнению с общеобразовательными школами.

Отметим, что мы не включаем фиктивную переменную для эталон­ной категории, вследствие чего эта категория обычно характеризуется как «пропущенная». Заметим также, что мы не делаем никаких априорных предпо­ложений ни о величине, ни даже о знаке коэффициентов 6. Они будут оцене­ны по данным выборки.

В табл. 5.4 представлены данные по первым 10 из 74 школ. Обратите вни­мание на то, как значения фиктивных переменных TECH, WORKER и VOC в каждом наблюдении определяются типом школы.

В табл. 5.5 распечатка программы Stata представляет результат оценивания регрессии для данной модели. В форме уравнения получаем (в скобках — стандартные ошибки):

COST = -55 ООО + 154 ООО TECH + 143 ООО WORKER + (27 ООО) (27 ООО) (28 ООО)

+ 53 ООО VOC + 343 N\ Л2 =0,63. (5.11)

(31 ООО) (40)

Коэффициент при N показывает, что предельные издержки в расчете на одного учащегося в год составляют 343 юаня. Постоянный член говорит о том, что годовые постоянные издержки общеобразовательной школы равня­лись -55 ООО юаням. Очевидно, такой результат не имеет смысла и говорит о том, что с моделью что-то не так. Коэффициенты при переменных TECH,

Таблица 5.4. Текущие расходы, численность учащихся и тип школы
—*ола Тип COST N TECH WORKER VOC
1 Техническая 345 ООО 623 1 0 0
2 Техническая 537 ООО 653 1 0 0
3 Общеобразовательная 170 000 400 0 0 0
4 Подготовка квалифицированных рабочих 526 000 663 0 1 0
5 Общеобразовательная 100 000 563 0 0 0
6 Специализированная 28 000 236 0 0 1
7 Специализированная 160 000 307 0 0 1
8 Техническая 45 000 173 1 0 0
Э Техническая 120 000 146 1 0 0
ТО Подготовка квалифицированных рабочих 61 000 99 0 1 0

reg COST N TECH WORKER VOC

Source SS df MS Number of obs = 74

..................................................................................

F(4,69) = 29.63

Model 9.2996e+11 4 2.3249e+11 Prob > F = О 000C

Residual 5.4138e+11 69 7.8461e+09 R-squared = 0.6320

........................... -..................................................... Adj R-squared = 0.6107

Total 1.4713e+12 73 2.0155e+10 Root MSE = 88578

COST Coef. Std.Err. t P>|t| [95%Conf. Interva;

N 342.6335 40.2195 8.519 0.000 262.3978 422.865:

TECH 154110.9 26760.41 5.759 0.000 100725.3 207496 4

WORKER 143362.4 27852.8 5.147 0.000 87797.57 19892'I

VOC 53228.64 31061.65 1.714 0.091 -8737.646 11519*-

_cons -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.7^

WORKER и VOC показывают, что постоянные издержки для технических шкс. - школ для подготовки квалифицированных рабочих и специализированы! школ были, соответственно, на 154 000, 143 ООО и 53 000 юаней больше, для общеобразовательных школ.

Из этого уравнения мы можем получить неявные функции издержек четырех типов школ, показанные ниже на графике. Вначале, приравняв тт* фиктивные переменные к нулю, мы получаем функцию издержек для OOLÜT образовательных школ:

Общеобразовательные школы

COST = -55 000 + 343 N. (5.1Г

Далее, приравнивая TECH к единице, a WORKER и VOCk нулю, мы полу- ем функции издержек для технических школ: Технические школы

COST =-55000+ 154 000 + 343 N= 99 000 + 343 N. (5.13

Аналогичным образом получаются функции издержек для школ подгсж* ки квалифицированных рабочих и специализированных школ: Школы для подготовки квалифицированных рабочих

COST = -55 000 + 143 000 + 343 N = 88 000 + 343 N. (5.: -

Специализированные школы

COST = -55 000 + 53 000 + 343 N = -2 000 + 343 N. (5.15

Отметим, что в каждом из этих случаев оценка годовых предельных издег- жек в расчете на одного учащегося составила 343 юаня. Спецификация moi: ли предполагает совпадение этого показателя для всех типов школ. Соотве* ствуюшие четыре функции издержек показаны на рис. 5.3.

Мы можем выполнить стандартные /-тесты для коэффициентов. Значени: /-статистики для коэффициента при Nравно 8,52, и, следовательно, предел

Ж
200 ООО
500 ООО
400 ООО
300 ООО
100 ООО
1^ 200 400 600 800 1000 1200
о
N

СОБТ 500 000 .

100 ООО

Условные обозначения: • Технические школы О Специализированные школы

Ж Школы подготовки квалифицированных рабочих О Общеобразовательные школы

Рисунок 5.3. Функции издержек для четырех типов школ в Шанхае

ные издержки значимо отличны от нуля, что и следовало ожидать. Значение /-статистики коэффициента при фиктивной переменной для технических школ равно 5,76, что подтверждает ожидаемое значимое превышение годовых постоянных издержек технических школ над соответствующими издержками общеобразовательных школ. Аналогичная /-статистика для школ подготовки квалифицированных рабочих равна 5,15. В случае специализированных школ, однако, /-статистика равна лишь 1,71, что указывает на отсутствие значимого превышения издержек в таких школах над соответствующими издержками общеобразовательных школ. Это неудивительно с учетом того факта, что спе­циализированные школы несущественно отличаются от общеобразователь­ных. Отметим, что нулевые гипотезы для коэффициентов при фиктивных пе­ременных заключаются здесь в том, что постоянные издержки в данных типах школ не отличаются от соответствующих издержек в общеобразовательных школах.

Совместная объясняющая способность группы фиктивных переменных

В заключение мы выполним Т7-тест на совместную объясняющую способ­ность группы фиктивных переменных. Нулевая гипотеза здесь выглядит так: #0: Ьт= 5Ж= 5К= 0. Альтернативная гипотеза Н{ заключается в том, что по крайней мере одно значение 5 отличается от нуля. Сумма квадратов отклоне­ний в уравнении с фиктивными переменными равна 5,41 х 10". (В распечатке программы 81а1а она представлена как 5,4138е +11. Выражение е + 11 озна­чает, что коэффициент должен быть умножен на 1011.) Сумма квадратов от­клонений в первоначальном уравнении без фиктивных переменных равнялась 8,92 х 10" (см. табл. 5.1). Таким образом, уменьшение после включения

фиктивных переменных составило (8,92 - 5,41) х 1011. Мы проверим значи­мость этого уменьшения с помощью обычного /'-теста.

Числитель выражения для /-статистики равен уменьшению RSS, деление- му на его «стоимость», которая равна трем степеням свободы, утраченнь.» при оценивании трех дополнительных коэффициентов (коэффициентов пр# фиктивных переменных). Знаменатель равен RSS для спецификации с фи» тивными переменными, деленному на число степеней свободы, остаюшее;> после их добавления. Следовательно, /-статистику можно рассчитать как

f(3; 69) J8'9160 х 1qU ~5'4138х1 1 )/3 = AjjZl = 14>9. (5.1(|

' 5,4138x10 /69 0,07846

Отметим, что все отношения были рассчитаны до четырех значащих циф: Это гарантирует точность расчета /-статистики до трех значащих цифр. Кр» тическое значение /(3; 69) несколько меньше, чем 6,17, критическое значен^ F(3; 60) при 0,1%-ном уровне значимости, и, следовательно, на этом уров:~: мы можем отвергнуть гипотезу #0. Этого и следовало ожидать, посколы /-тесты показали значимое отличие Ьт и от нуля, и очень маловероят:- (хотя и возможно), что при значимости одного или нескольких коэффициен­тов F-тест не приводит к отклонению гипотезы #0

Ловушка фиктивных переменных

Что произойдет, если включить фиктивную переменную для эталонной тегории? Будут наблюдаться два явления. Во-первых, если бы было возможь. вычислить коэффициенты регрессии, мы не смогли бы дать им интерпрет. цию. Коэффициент Ь] является оценкой базового значения постоянного чле на в уравнении регрессии, а коэффициенты при фиктивных переменных сл> жат оценками приращения постоянного члена по сравнению с этим базовь s уровнем. Теперь, однако, отсутствует то, что является «базой», поэтому интег- претация оказывается несостоятельной. Во-вторых, окажется невыполнимей процедура вычисления коэффициентов регрессии. Компьютер просто выда- сообщение об ошибке (или, возможно, в более совершенных регрессионнь- пакетах отбросит для вас одну из фиктивных переменных). Предположим, чт: существует m категорий и вводятся фиктивные переменные Dv ..., Dm. Tora для наблюдения / выполняется условие

m

j=1

поскольку одна из фиктивных переменных равна единице и все остальнь: равны нулю. В то же время постоянный член ß, в действительности являет« произведением параметра ß, и специальной переменной, которая равна едн нице для всех наблюдений (см. Вставку 4.1). Следовательно, для всех наблю­дений сумма фиктивных переменных равна этой специальной переменной.' мы имеем строгую линейную связь между переменными в регрессионной мо­дели. Это — так называемая ловушка фиктивных переменных. Вследствие этого в модели имеет место совершенная мультиколлинеарность, делающая невоз­можным расчет коэффициентов.

Замена эталонной категории

Школы для подготовки квалифицированных рабочих, очевидно, суще­ственно менее академичны, чем все остальные, в том числе и технические школы. Предположим, что мы захотели выяснить, отличаются ли значимо их издержки от издержек школ других типов. Самый простой способ для этого состоит в придании им статуса эталонной категории (пропущенная катего­рия). В этом случае коэффициенты при фиктивных переменных являются оценками разностей между постоянными издержками других типов школ и школ для подготовки квалифицированных рабочих. Если школы для подго­товки квалифицированных рабочих являются эталонной категорией, то нуж­на фиктивная переменная, которую мы назовем GEN для общеобразователь­ных школ. Наша модель приобретает вид

COST= ß, + ЬтТЕСН + 5 vVOC + bjGEN + ß2# + u, (5.17)

где Ьг 8ки 5С показывают дополнительные издержки для технических, специ­ализированных и общеобразовательных школ по сравнению со школами для подготовки квалифицированных рабочих. Данные для первых 10 школ приве­дены в табл. 5.6. Распечатка программы Stata приведена в табл. 5.7.

Уравнение регрессии, следовательно, получается таким (в скобках приве­дены стандартные ошибки):

COST = 88 ООО + 11 ООО TECH- 143 ООО GEN- 90 ООО VOC + 343 N.

(29 000) (30 000) (28 000) (34 000) (40)

R2 = 0,63. (5.18)

Из этого уравнения мы можем вновь получить четыре неявно записанные функции издержек для четырех типов школ. Приравняв все фиктивные пере­менные к нулю, мы получаем функцию издержек для школ подготовки квали­фицированных рабочих:

Таблица 5.6. Текущие расходы, численность учащихся и типы школ
Школа Тип COST N TECH GEN VOC
1 Техническая 345 000 623 1 0 0
2 Техническая 537 000 653 1 0 0
3 Общеобразовател ьная 170 000 400 0 1 0
4 Подготовка квалифицированных рабочих 526 000 663 0 0 0
5 Общеобразовательная 100 000 563 0 1 0
6 Специализированная 28 000 236 0 0 1
7 Специализированная 160 000 307 0 0 1
8 Техническая 45 000 173 1 0 0
9 Техническая 120 000 146 1 0 0
10 Подготовка квалифицированных рабочих 61 000 99 0 0 0

. reg COST N TECH VOC GEN
Source SS df MS Number of obs =

F(4,69)

Prob > F

74

29.63 0.0000

Model 9.2996e+11 4 2.3249e+11
Residual 5.4138e+11 69 7.8461e+09 R-squared Adj R-squared = Root MSE 0.6320 0.6107 88578
Total 1.4713e+12 73 2.0155e+10
COST Coef. Std. Err. t P>|t| [95% Conf. Interval]
N 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TECH 10748.51 30524.87 0.352 0.726 -50146.93 71643.95
VOC -90133.74 33984.22 -2.652 0.010 -157930.4 -22337.0"
GEN -143362.4 27852.8 -5.147 0.000 -198927.2 -87797.5"
_cons 88469.29 28849.56 3.067 0.003 30916.01 146022.6
Школы для подготовки квалифицированных рабочих

COST = 88 ООО + 343 М (5.19'

Далее, приравнивая одну из переменных TECH, WORKER и GEN к единиис а две другие — к нулю, мы получаем функции издержек для других типе* школ:

Технические школы

COST = 88 ООО + 11 ООО + 343 N= 99 ООО + 343 N. (5.20i

Специализированные школы

COST = 88 ООО - 90 ООО + 343 -2 ООО + 343 N. (5.21 \

Общеобразовательные школы

COST = 88 ООО - 143 ООО + 343 N = -55 ООО + 343 N. (5.22)

Заметим, что эти уравнения совпадают с полученными в том случае, коп; эталонную категорию составляли общеобразовательные школы. Выбор эта­лонной категории не влияет на существо полученных результатов оценивани; регрессии. Меняются лишь значения стандартных ошибок и r-статистик. Зна­чения коэффициента R2, коэффициенты при других переменных и их /-ста­тистики, а также F-статистика для уравнения в целом не меняются. И, конеч­но, график, представляющий четыре функции издержек, остается тем же, чт. и раньше.

Модели с несколькими наборами фиктивных переменных

Нередко в регрессионных моделях присутствует более чем один набор фик­тивных переменных. Это особенно распространено при работе с данными пе­рекрестных выборок, когда наряду с их количественными характеристикам»- важен и ряд качественных характеристик. При четком описании моделируе­мой ситуации использование фиктивных переменных легко распространяет­ся на подобные модели.

Приведем пример такой модели с использованием данных о затратах школ. Многие профессиональные школы и некоторые обычные школы являются школами с постоянным проживанием (школы-интернаты). Мы рассмотрим дополнительные затраты на работу школ с проживанием, по-прежнему учи­тывая также число учащихся и тип школы. Для этого введем фиктивную пере­менную RES, которая равна единице для школ с проживанием и нулю — для остальных школ. Для простоты мы вернемся к разделению школ на профес­сиональные и обычные. Модель приобретает вид

COST= ß, + WCC+ eRES+ ß2W+ и, (5.23)

где е — дополнительные затраты для школы с проживанием. Эталонная кате­гория теперь имеет два измерения, по одному — для каждой качественной ха­рактеристики. В данном случае это школа без проживания (RES= 0), обычная \ОСС= 0). В табл. 5.8 представлены данные для первых 10 из нашей выборки. Вторая, четвертая и седьмая школы являются школами с проживанием, и пе­ременная RES для них равна единице, в то время как для остальных школ она равна нулю.

Распечатка результатов оценивания регрессии с помощью программы Stata представлена в табл. 5.9. Сами результаты оценивания регрессии, следова­тельно, таковы (в скобках приведены стандартные ошибки):

COST = -29 ООО + 110 ООО ОСС + 58 ООО RES + 322 /V; R2 = 0,63. (5.24) (23 000) (24 000) (31000) (39)

Используя четыре возможных сочетания значений переменных ОСС и RES, получаем следующие частные уравнения:

Обычные школы без проживания

COST = -29 000 + 322 N. (5.25)

"аблица 5.8. Ежегодные издержки по типам школ для школ с проживанием и без проживания
Школа Тип COST N ОСС RES
1 Профессиональная, дневная 345 ООО 623 1 0
2 Профессиональная, с проживанием 537 000 653 1 1
3 Обычная, дневная 170 000 400 0 0
4 Профессиональная, с проживанием 526 000 663 1 1
5 Обычная, дневная 100 000 563 0 0
6 Обычная, дневная 28 000 236 0 0
7 Обычная, с проживанием 160 000 307 0 1
8 Профессиональная, дневная 45 000 173 1 0
9 Профессиональная, дневная 120 000 146 1 0
10 Профессиональная, дневная 61 000 99 1 0

reg COST N OCC RES

Source SS df MS Number of obs = 74

.............................. -.......... -.......................... F(3,70) = 40.43

Model 9.3297e+11 3 3.1099e+11 Prob > F = 0.0000

Residual 5.3838e+11 70 7.6911e+09 R-squared = 0.6341

..................................................................... Adj R-squared = 0.6184

Total 1.4713e+12 73 2.0155e+10 Root MSE = 87699

COST Coef. Std.Err. t P>|t| [95%Conf. Interval]

N 321.833 39.40225 8.168 0.000 243.2477 400.41

OCC 109564-6 24039.58 4.558 0.000 61619.15 1575111

RES 57909.01 30821.31 1.879 0.064 -3562.137 119380.2

cons -29045.27 23291.54 -1.247 0.217 -75498.78 17408.2!

Профессиональные школы без проживания

COST = -29 000 + 110 000 + 322 N= 81 000 + 322 N. (53

Обычные школы с проживанием

COST = -29 000 + 58 000 + 322 N= 29 000 + 322 N. (5.2*

Профессиональные школы с проживанием

COST = -29 000 + 110 000 + 58 000 + 322 N= 139 000 + 322 N. (5.2*.

Функции издержек представлены графически на рис. 5.4. Отметим, чт: модель включает разумное предположение о том, что дополнительные и:

О } 0,R
с г 0,N
© R,R
R,N
^^ W
О
F = 0.0000

Residual 129.068668 531 .243067171 J"sqDuared . = Wl AdjR-squared = 0.2983

Total 186.707643 539 .34639637 Root MSE = .49302

LGEARN Coef. Std. Err. t P>|t| [95%Conf. Interval]

EDUCPROF 1.59193 .2498069 6.37 0.000 1.101199 2.082661

EDUCPHD .3089521 .4943698 0.62 0.532 -.6622084 1.280113

EDUCMAST .6280672 .0993222 6.32 0.000 .4329546 .8231798

EDUCBA .5053643 .0561215 9.00 0.000 .3951168 .6156118

EDUCAA .170838 .0765684 2.23 0.026 .0204238 .3212522

EDUCDO -.2527803 .08179 -3.09 0.002 -.413452 -.0921085

EXP .0230536 .0050845 4.53 0.000 .0130654 .0330419

MALE .2755451 .0437642 6.30 0.000 .189573 .3615173

_cons 2.125885 .0915997 23.21 0.000 1.945943 2.305828

Распечатка программы Stata представляет результат оценивания полулогариф­мической регрессионной зависимости размера заработка от уровня полученной в результате учебы квалификации, опыта работы и пола респондента, где уро­вень квалификации включает профессиональный диплом, степень доктора фи лософии (PhD), степень магистра, степень бакалавра, неполное высшее образо­вание, диплом общего образования и отсутствие квалификации (для не закон чивших среднюю школу). Диплом общего образования GED представляг квалификацию, эквивалентную аттестату об окончании средней школы. Аттес тат об окончании средней школы — здесь эталонная категория. Дайте интерпре тацию коэффициентов и выполните для них /-тесты.

5.6. Существует ли дискриминация в уровне заработка по этническому принцип) Используя набор данных EAEF, оцените регрессионную зависимость перемен ной LGEARN от S, EXP, MALE, ETHHISP и ETHBLACK. Дайте интерпретации результатов оценивания регрессии и выполните для коэффициентов /-тесты.

5.7. Влияет ли на заработки членство в профсоюзе? В приведенной ниже распечатка COLLBARG является фиктивной переменной, равной единице для рабочих, чь» заработная плата определена коллективным договором, и нулю — для осталь­ных. Дайте интерпретацию коэффициентов регрессии и выполните соответств> ющие статистические тесты.

. reg LGEARN S EXP MALE COLLBARG

Source SS df MS Number of obs = 540

................................................ -...................................................... F(4,535) = 64.84

Model 60.9620285 4 15.2405071 Prob > F = 0.000C

Residual 125.745615 535 .235038532 R-squared = 0.3265

.......................................... -.................. -...................................... Adj R-squared = 0.3215

Total 186.707643 539 .34639637 Root MSE = .48481

LGEARN Coef. Std. Err. t P>|t| [95%Conf. Interval]

S .1194004 .008798 13.57 0.000 .1021175 .1366832

EXP .0274958 .0049647 5.54 0.000 .0177431 .037248*

MALE .269056 .0429286 6.27 0.000 .1847267 .3533853

COLLBARG .0790935 .0536727 1.47 0.141 -.0263416 .184528"

_cons .5455149 .1606062______________ 3.40 0.001________ .2300187 .86101П

5.8. Выясните, обладают ли этнические фиктивные переменные как группа значи­мой объясняющей способностью для продолжительности обучения путем срав­нения сумм квадратов отклонений дня регрессий, оцененных в упражнениях 5. и 5.4.

5.9. Выясните, обладают ли этнические фиктивные переменные как группа значи­мой объясняющей способностью для размера заработка путем сравнения сум*, квадратов отклонений для регрессий, оцененных в упражнениях 5.3 и 5.6.

5.10. Повторите упражнение 5.4, сделав ETHBLACK эталонной категорией. Охаракте­ризуйте влияние этого изменения на интерпретацию коэффициентов и статис­тические тесты.

5.11. Повторно выполните упражнение 5.6, сделав ETHBLACK эталонной категорией Охарактеризуйте влияние этого изменения на интерпретацию коэффициентов >• статистические тесты.

5.12. Повторно выполните упражнение 5.3, включив FEMALE наряду с MALE. Оцени­те регрессионную зависимость переменной LGEARN от S, EXP, MALE и FEMALE Интерпретируйте полученные результаты.

<< | >>

Еще по теме 5.2.Обобщение для фиктивных переменных более чем двух категорий и их нескольких наборов:

  1. 5.3. Фиктивные переменные для коэффициента наклона
  2. 9.4. Фиктивные переменные для коэффициента наклона
  3. ФИКТИВНЫЕ ПЕРЕМЕННЫЕ
  4. Максимизация полезности при потреблении двух и более товаров и услуг
  5. 9.3. Множественные совокупности фиктивных переменных
  6. 5.1. Пример использования фиктивной переменной
  7. 9.1. Иллюстрация использования фиктивной переменной
  8. 9. ФИКТИВНЫЕ ПЕРЕМЕННЫЕ
  9. 5.ФИКТИВНЫЕ ПЕРЕМЕННЫЕ
  10. «Перекресток» с более чем сотней магазинов в 14 регионах
  11. Два разложения для зависимой переменной
  12. 6.2. Что для этого необходимо6.2.1. Взаимосвязь между стратегическим планированием, планированием на несколько лет и годовым планированием