5.2.Обобщение для фиктивных переменных более чем двух категорий и их нескольких наборов
Итак, теперь качественная переменная содержит четыре категории, и поэтому нужно ввести более детальный набор фиктивных переменных. Стандартная процедура состоит в выборе эталонной категории, к которой относите! исходное уравнение, с последующим определением фиктивных переменньп для других категорий.
Вообще говоря, лучше всего в качестве эталонной выбрать преобладающую или наиболее естественную категорию, если такова» имеется. В нашем примере мы выберем общеобразовательные школы. Он* наиболее многочисленны в Шанхае, а все остальные школы являются их модификациями.Определим, соответственно, фиктивные переменные и для трех других категорий. Переменная ТЕСЕ— фиктивная для технических школ: ТЕСНравн> единице, если данное наблюдение относится к технической школе, и нулю - в противном случае. Аналогично определяются фиктивные переменны:
WORKER для школ подготовки квалифицированных рабочих и VOC — для специализированных школ. Регрессионная модель теперь приобретает вид
COST= ß, + 5 тТЕСН+ bwWORKER + 5 vVOC+ ß2TV + и, (5.10)
где коэффициенты Ьт, и 5К отражают дополнительные постоянные издержки для технических школ, школ подготовки квалифицированных рабочих и специализированных школ по сравнению с общеобразовательными школами.
Отметим, что мы не включаем фиктивную переменную для эталонной категории, вследствие чего эта категория обычно характеризуется как «пропущенная». Заметим также, что мы не делаем никаких априорных предположений ни о величине, ни даже о знаке коэффициентов 6. Они будут оценены по данным выборки.В табл. 5.4 представлены данные по первым 10 из 74 школ. Обратите внимание на то, как значения фиктивных переменных TECH, WORKER и VOC в каждом наблюдении определяются типом школы.
В табл. 5.5 распечатка программы Stata представляет результат оценивания регрессии для данной модели. В форме уравнения получаем (в скобках — стандартные ошибки):
COST = -55 ООО + 154 ООО TECH + 143 ООО WORKER + (27 ООО) (27 ООО) (28 ООО)
+ 53 ООО VOC + 343 N\ Л2 =0,63. (5.11)
(31 ООО) (40)
Коэффициент при N показывает, что предельные издержки в расчете на одного учащегося в год составляют 343 юаня. Постоянный член говорит о том, что годовые постоянные издержки общеобразовательной школы равнялись -55 ООО юаням. Очевидно, такой результат не имеет смысла и говорит о том, что с моделью что-то не так. Коэффициенты при переменных TECH,
Таблица 5.4. Текущие расходы, численность учащихся и тип школы
|
reg COST N TECH WORKER VOC
Source SS df MS Number of obs = 74
..................................................................................
F(4,69) = 29.63Model 9.2996e+11 4 2.3249e+11 Prob > F = О 000C
Residual 5.4138e+11 69 7.8461e+09 R-squared = 0.6320
........................... -..................................................... Adj R-squared = 0.6107
Total 1.4713e+12 73 2.0155e+10 Root MSE = 88578
COST Coef. Std.Err. t P>|t| [95%Conf. Interva;
N 342.6335 40.2195 8.519 0.000 262.3978 422.865:
TECH 154110.9 26760.41 5.759 0.000 100725.3 207496 4
WORKER 143362.4 27852.8 5.147 0.000 87797.57 19892'I
VOC 53228.64 31061.65 1.714 0.091 -8737.646 11519*-
_cons -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.7^
WORKER и VOC показывают, что постоянные издержки для технических шкс. - школ для подготовки квалифицированных рабочих и специализированы! школ были, соответственно, на 154 000, 143 ООО и 53 000 юаней больше, для общеобразовательных школ.
Из этого уравнения мы можем получить неявные функции издержек четырех типов школ, показанные ниже на графике. Вначале, приравняв тт* фиктивные переменные к нулю, мы получаем функцию издержек для OOLÜT образовательных школ:
Общеобразовательные школы
COST = -55 000 + 343 N. (5.1Г
Далее, приравнивая TECH к единице, a WORKER и VOCk нулю, мы полу- ем функции издержек для технических школ: Технические школы
COST =-55000+ 154 000 + 343 N= 99 000 + 343 N. (5.13
Аналогичным образом получаются функции издержек для школ подгсж* ки квалифицированных рабочих и специализированных школ: Школы для подготовки квалифицированных рабочих
COST = -55 000 + 143 000 + 343 N = 88 000 + 343 N. (5.: -
Специализированные школы
COST = -55 000 + 53 000 + 343 N = -2 000 + 343 N. (5.15
Отметим, что в каждом из этих случаев оценка годовых предельных издег- жек в расчете на одного учащегося составила 343 юаня. Спецификация moi: ли предполагает совпадение этого показателя для всех типов школ. Соотве* ствуюшие четыре функции издержек показаны на рис. 5.3.
Мы можем выполнить стандартные /-тесты для коэффициентов. Значени: /-статистики для коэффициента при Nравно 8,52, и, следовательно, предел
Ж |
200 ООО |
500 ООО |
400 ООО |
300 ООО |
100 ООО |
1^ 200 400 600 800 1000 1200 |
о |
N |
СОБТ 500 000 .
100 ООО
Условные обозначения: • Технические школы О Специализированные школы
Ж Школы подготовки квалифицированных рабочих О Общеобразовательные школы
Рисунок 5.3. Функции издержек для четырех типов школ в Шанхае
ные издержки значимо отличны от нуля, что и следовало ожидать. Значение /-статистики коэффициента при фиктивной переменной для технических школ равно 5,76, что подтверждает ожидаемое значимое превышение годовых постоянных издержек технических школ над соответствующими издержками общеобразовательных школ. Аналогичная /-статистика для школ подготовки квалифицированных рабочих равна 5,15. В случае специализированных школ, однако, /-статистика равна лишь 1,71, что указывает на отсутствие значимого превышения издержек в таких школах над соответствующими издержками общеобразовательных школ. Это неудивительно с учетом того факта, что специализированные школы несущественно отличаются от общеобразовательных. Отметим, что нулевые гипотезы для коэффициентов при фиктивных переменных заключаются здесь в том, что постоянные издержки в данных типах школ не отличаются от соответствующих издержек в общеобразовательных школах.
Совместная объясняющая способность группы фиктивных переменных
В заключение мы выполним Т7-тест на совместную объясняющую способность группы фиктивных переменных. Нулевая гипотеза здесь выглядит так: #0: Ьт= 5Ж= 5К= 0. Альтернативная гипотеза Н{ заключается в том, что по крайней мере одно значение 5 отличается от нуля. Сумма квадратов отклонений в уравнении с фиктивными переменными равна 5,41 х 10". (В распечатке программы 81а1а она представлена как 5,4138е +11. Выражение е + 11 означает, что коэффициент должен быть умножен на 1011.) Сумма квадратов отклонений в первоначальном уравнении без фиктивных переменных равнялась 8,92 х 10" (см. табл. 5.1). Таким образом, уменьшение после включения
фиктивных переменных составило (8,92 - 5,41) х 1011. Мы проверим значимость этого уменьшения с помощью обычного /'-теста.
Числитель выражения для /-статистики равен уменьшению RSS, деление- му на его «стоимость», которая равна трем степеням свободы, утраченнь.» при оценивании трех дополнительных коэффициентов (коэффициентов пр# фиктивных переменных). Знаменатель равен RSS для спецификации с фи» тивными переменными, деленному на число степеней свободы, остаюшее;> после их добавления. Следовательно, /-статистику можно рассчитать как
f(3; 69) J8'9160 х 1qU ~5'4138х1 1 )/3 = AjjZl = 14>9. (5.1(|
' 5,4138x10 /69 0,07846
Отметим, что все отношения были рассчитаны до четырех значащих циф: Это гарантирует точность расчета /-статистики до трех значащих цифр. Кр» тическое значение /(3; 69) несколько меньше, чем 6,17, критическое значен^ F(3; 60) при 0,1%-ном уровне значимости, и, следовательно, на этом уров:~: мы можем отвергнуть гипотезу #0. Этого и следовало ожидать, посколы /-тесты показали значимое отличие Ьт и от нуля, и очень маловероят:- (хотя и возможно), что при значимости одного или нескольких коэффициентов F-тест не приводит к отклонению гипотезы #0
Ловушка фиктивных переменных
Что произойдет, если включить фиктивную переменную для эталонной тегории? Будут наблюдаться два явления. Во-первых, если бы было возможь. вычислить коэффициенты регрессии, мы не смогли бы дать им интерпрет. цию. Коэффициент Ь] является оценкой базового значения постоянного чле на в уравнении регрессии, а коэффициенты при фиктивных переменных сл> жат оценками приращения постоянного члена по сравнению с этим базовь s уровнем. Теперь, однако, отсутствует то, что является «базой», поэтому интег- претация оказывается несостоятельной. Во-вторых, окажется невыполнимей процедура вычисления коэффициентов регрессии. Компьютер просто выда- сообщение об ошибке (или, возможно, в более совершенных регрессионнь- пакетах отбросит для вас одну из фиктивных переменных). Предположим, чт: существует m категорий и вводятся фиктивные переменные Dv ..., Dm. Tora для наблюдения / выполняется условие
m
j=1
поскольку одна из фиктивных переменных равна единице и все остальнь: равны нулю. В то же время постоянный член ß, в действительности являет« произведением параметра ß, и специальной переменной, которая равна едн нице для всех наблюдений (см. Вставку 4.1). Следовательно, для всех наблюдений сумма фиктивных переменных равна этой специальной переменной.' мы имеем строгую линейную связь между переменными в регрессионной модели. Это — так называемая ловушка фиктивных переменных. Вследствие этого в модели имеет место совершенная мультиколлинеарность, делающая невозможным расчет коэффициентов.
Замена эталонной категории
Школы для подготовки квалифицированных рабочих, очевидно, существенно менее академичны, чем все остальные, в том числе и технические школы. Предположим, что мы захотели выяснить, отличаются ли значимо их издержки от издержек школ других типов. Самый простой способ для этого состоит в придании им статуса эталонной категории (пропущенная категория). В этом случае коэффициенты при фиктивных переменных являются оценками разностей между постоянными издержками других типов школ и школ для подготовки квалифицированных рабочих. Если школы для подготовки квалифицированных рабочих являются эталонной категорией, то нужна фиктивная переменная, которую мы назовем GEN для общеобразовательных школ. Наша модель приобретает вид
COST= ß, + ЬтТЕСН + 5 vVOC + bjGEN + ß2# + u, (5.17)
где Ьг 8ки 5С показывают дополнительные издержки для технических, специализированных и общеобразовательных школ по сравнению со школами для подготовки квалифицированных рабочих. Данные для первых 10 школ приведены в табл. 5.6. Распечатка программы Stata приведена в табл. 5.7.
Уравнение регрессии, следовательно, получается таким (в скобках приведены стандартные ошибки):
COST = 88 ООО + 11 ООО TECH- 143 ООО GEN- 90 ООО VOC + 343 N.
(29 000) (30 000) (28 000) (34 000) (40)
R2 = 0,63. (5.18)
Из этого уравнения мы можем вновь получить четыре неявно записанные функции издержек для четырех типов школ. Приравняв все фиктивные переменные к нулю, мы получаем функцию издержек для школ подготовки квалифицированных рабочих:
Таблица 5.6. Текущие расходы, численность учащихся и типы школ
|
. reg COST N TECH VOC GEN | ||||||
Source | SS | df | MS | Number of obs = F(4,69) Prob > F | 74 29.63 0.0000 | |
Model | 9.2996e+11 | 4 | 2.3249e+11 | |||
Residual | 5.4138e+11 | 69 | 7.8461e+09 | R-squared Adj R-squared = Root MSE | 0.6320 0.6107 88578 | |
Total | 1.4713e+12 | 73 | 2.0155e+10 | |||
COST | Coef. | Std. Err. | t | P>|t| | [95% Conf. | Interval] |
N | 342.6335 | 40.2195 | 8.519 | 0.000 | 262.3978 | 422.8692 |
TECH | 10748.51 | 30524.87 | 0.352 | 0.726 | -50146.93 | 71643.95 |
VOC | -90133.74 | 33984.22 | -2.652 | 0.010 | -157930.4 | -22337.0" |
GEN | -143362.4 | 27852.8 | -5.147 | 0.000 | -198927.2 | -87797.5" |
_cons | 88469.29 | 28849.56 | 3.067 | 0.003 | 30916.01 | 146022.6 |
Школы для подготовки квалифицированных рабочих |
COST = 88 ООО + 343 М (5.19'
Далее, приравнивая одну из переменных TECH, WORKER и GEN к единиис а две другие — к нулю, мы получаем функции издержек для других типе* школ:
Технические школы
COST = 88 ООО + 11 ООО + 343 N= 99 ООО + 343 N. (5.20i
Специализированные школы
COST = 88 ООО - 90 ООО + 343 -2 ООО + 343 N. (5.21 \
Общеобразовательные школы
COST = 88 ООО - 143 ООО + 343 N = -55 ООО + 343 N. (5.22)
Заметим, что эти уравнения совпадают с полученными в том случае, коп; эталонную категорию составляли общеобразовательные школы. Выбор эталонной категории не влияет на существо полученных результатов оценивани; регрессии. Меняются лишь значения стандартных ошибок и r-статистик. Значения коэффициента R2, коэффициенты при других переменных и их /-статистики, а также F-статистика для уравнения в целом не меняются. И, конечно, график, представляющий четыре функции издержек, остается тем же, чт. и раньше.
Модели с несколькими наборами фиктивных переменных
Нередко в регрессионных моделях присутствует более чем один набор фиктивных переменных. Это особенно распространено при работе с данными перекрестных выборок, когда наряду с их количественными характеристикам»- важен и ряд качественных характеристик. При четком описании моделируемой ситуации использование фиктивных переменных легко распространяется на подобные модели.
Приведем пример такой модели с использованием данных о затратах школ. Многие профессиональные школы и некоторые обычные школы являются школами с постоянным проживанием (школы-интернаты). Мы рассмотрим дополнительные затраты на работу школ с проживанием, по-прежнему учитывая также число учащихся и тип школы. Для этого введем фиктивную переменную RES, которая равна единице для школ с проживанием и нулю — для остальных школ. Для простоты мы вернемся к разделению школ на профессиональные и обычные. Модель приобретает вид
COST= ß, + WCC+ eRES+ ß2W+ и, (5.23)
где е — дополнительные затраты для школы с проживанием. Эталонная категория теперь имеет два измерения, по одному — для каждой качественной характеристики. В данном случае это школа без проживания (RES= 0), обычная \ОСС= 0). В табл. 5.8 представлены данные для первых 10 из нашей выборки. Вторая, четвертая и седьмая школы являются школами с проживанием, и переменная RES для них равна единице, в то время как для остальных школ она равна нулю.
Распечатка результатов оценивания регрессии с помощью программы Stata представлена в табл. 5.9. Сами результаты оценивания регрессии, следовательно, таковы (в скобках приведены стандартные ошибки):
COST = -29 ООО + 110 ООО ОСС + 58 ООО RES + 322 /V; R2 = 0,63. (5.24) (23 000) (24 000) (31000) (39)
Используя четыре возможных сочетания значений переменных ОСС и RES, получаем следующие частные уравнения:
Обычные школы без проживания
COST = -29 000 + 322 N. (5.25)
"аблица 5.8. Ежегодные издержки по типам школ для школ с проживанием и без проживания
|
reg COST N OCC RES
Source SS df MS Number of obs = 74
.............................. -.......... -.......................... F(3,70) = 40.43
Model 9.3297e+11 3 3.1099e+11 Prob > F = 0.0000
Residual 5.3838e+11 70 7.6911e+09 R-squared = 0.6341
..................................................................... Adj R-squared = 0.6184
Total 1.4713e+12 73 2.0155e+10 Root MSE = 87699
COST Coef. Std.Err. t P>|t| [95%Conf. Interval]
N 321.833 39.40225 8.168 0.000 243.2477 400.41
OCC 109564-6 24039.58 4.558 0.000 61619.15 1575111
RES 57909.01 30821.31 1.879 0.064 -3562.137 119380.2
cons -29045.27 23291.54 -1.247 0.217 -75498.78 17408.2!
Профессиональные школы без проживания
COST = -29 000 + 110 000 + 322 N= 81 000 + 322 N. (53
Обычные школы с проживанием
COST = -29 000 + 58 000 + 322 N= 29 000 + 322 N. (5.2*
Профессиональные школы с проживанием
COST = -29 000 + 110 000 + 58 000 + 322 N= 139 000 + 322 N. (5.2*.
Функции издержек представлены графически на рис. 5.4. Отметим, чт: модель включает разумное предположение о том, что дополнительные и:
• | ||||
О | } | 0,R | ||
с | г | 0,N | ||
© | R,R | |||
R,N | ||||
^^ W | ||||
О | ||||
F = 0.0000 Residual 129.068668 531 .243067171 J"sqDuared . = Wl AdjR-squared = 0.2983 Total 186.707643 539 .34639637 Root MSE = .49302 LGEARN Coef. Std. Err. t P>|t| [95%Conf. Interval] EDUCPROF 1.59193 .2498069 6.37 0.000 1.101199 2.082661 EDUCPHD .3089521 .4943698 0.62 0.532 -.6622084 1.280113 EDUCMAST .6280672 .0993222 6.32 0.000 .4329546 .8231798 EDUCBA .5053643 .0561215 9.00 0.000 .3951168 .6156118 EDUCAA .170838 .0765684 2.23 0.026 .0204238 .3212522 EDUCDO -.2527803 .08179 -3.09 0.002 -.413452 -.0921085 EXP .0230536 .0050845 4.53 0.000 .0130654 .0330419 MALE .2755451 .0437642 6.30 0.000 .189573 .3615173 _cons 2.125885 .0915997 23.21 0.000 1.945943 2.305828 Распечатка программы Stata представляет результат оценивания полулогарифмической регрессионной зависимости размера заработка от уровня полученной в результате учебы квалификации, опыта работы и пола респондента, где уровень квалификации включает профессиональный диплом, степень доктора фи лософии (PhD), степень магистра, степень бакалавра, неполное высшее образование, диплом общего образования и отсутствие квалификации (для не закон чивших среднюю школу). Диплом общего образования GED представляг квалификацию, эквивалентную аттестату об окончании средней школы. Аттес тат об окончании средней школы — здесь эталонная категория. Дайте интерпре тацию коэффициентов и выполните для них /-тесты. 5.6. Существует ли дискриминация в уровне заработка по этническому принцип) Используя набор данных EAEF, оцените регрессионную зависимость перемен ной LGEARN от S, EXP, MALE, ETHHISP и ETHBLACK. Дайте интерпретации результатов оценивания регрессии и выполните для коэффициентов /-тесты. 5.7. Влияет ли на заработки членство в профсоюзе? В приведенной ниже распечатка COLLBARG является фиктивной переменной, равной единице для рабочих, чь» заработная плата определена коллективным договором, и нулю — для остальных. Дайте интерпретацию коэффициентов регрессии и выполните соответств> ющие статистические тесты. . reg LGEARN S EXP MALE COLLBARG Source SS df MS Number of obs = 540 ................................................ -...................................................... F(4,535) = 64.84 Model 60.9620285 4 15.2405071 Prob > F = 0.000C Residual 125.745615 535 .235038532 R-squared = 0.3265 .......................................... -.................. -...................................... Adj R-squared = 0.3215 Total 186.707643 539 .34639637 Root MSE = .48481 LGEARN Coef. Std. Err. t P>|t| [95%Conf. Interval] S .1194004 .008798 13.57 0.000 .1021175 .1366832 EXP .0274958 .0049647 5.54 0.000 .0177431 .037248* MALE .269056 .0429286 6.27 0.000 .1847267 .3533853 COLLBARG .0790935 .0536727 1.47 0.141 -.0263416 .184528" _cons .5455149 .1606062______________ 3.40 0.001________ .2300187 .86101П 5.8. Выясните, обладают ли этнические фиктивные переменные как группа значимой объясняющей способностью для продолжительности обучения путем сравнения сумм квадратов отклонений дня регрессий, оцененных в упражнениях 5. и 5.4. 5.9. Выясните, обладают ли этнические фиктивные переменные как группа значимой объясняющей способностью для размера заработка путем сравнения сум*, квадратов отклонений для регрессий, оцененных в упражнениях 5.3 и 5.6. 5.10. Повторите упражнение 5.4, сделав ETHBLACK эталонной категорией. Охарактеризуйте влияние этого изменения на интерпретацию коэффициентов и статистические тесты. 5.11. Повторно выполните упражнение 5.6, сделав ETHBLACK эталонной категорией Охарактеризуйте влияние этого изменения на интерпретацию коэффициентов >• статистические тесты. 5.12. Повторно выполните упражнение 5.3, включив FEMALE наряду с MALE. Оцените регрессионную зависимость переменной LGEARN от S, EXP, MALE и FEMALE Интерпретируйте полученные результаты.
Еще по теме 5.2.Обобщение для фиктивных переменных более чем двух категорий и их нескольких наборов:
-
Государственное регулирование экономики -
Институциональная экономика -
Информационные технологии в экономике -
История экономических учений -
Макроэкономика -
Микроэкономика -
Учебники по экономике для школьников -
Эконометрика -
Экономика -
Экономика предприятия -
Экономическая теория -
-
Аудит. Бухгалтерский учет -
Банковское дело -
Бизнес -
История -
Маркетинг и менеджмент -
Налоги и налогообложение -
Психология -
Социология и Политология -
Управление персоналом и Контроллинг -
Финансы -
Ценные бумаги -
Шпаргалки -
Экономика -
|