3.2. Вывод и интерпретация коэффициентов множественной регрессии
АЮ = 5>,2, (3.3)
/=1
где е( является остатком в наблюдении /, разницей между фактическим значением У1 в этом наблюдении и значением Уп прогнозируемым по уравнению регрессии:
У1 = Ъ]+Ъ2Х21+ЬъХ 3/; (3.4)
е. = У1-У=У1-Ъх-Ъ1ХГ1-ЬъХУг (3.5)
Отметим, что теперь переменные X имеют два нижних индекса. Первый означает номер переменной X, а второй относится к номеру наблюдения.
Используя уравнение (3.5), мы можем записать:
ЛЖУ = Х е} = Х(У, -Ь-Ь2ХЪ-Ь,ХЪ1)\ (3.6)
Ш I 1 .................. И «Л. Что случилось сХ^?Вы могли заметить, что переменнаяX |
- |
■ |
/=1 1=1
о
:г: : |
. - - ............................ / А , >'/£////■/,МГУ,' |
Вставка 3.
отсутствует в общей модели регрессии
Почему так? Причина здесь — в необходимости сделать обозначения аналогичными обозначениям в учебниках, использующих линейную (матричную) алгебру. В вашем следующем курсе эконометрики наверняка будет использоваться такой учебник. Для изложения с использованием линейной алгебры необходимо, чтобы каждый член в правой части уравнения был произведением параметра и переменной. Если в модели есть постоянный член, как здесь, то можно исправить ситуацию, записав уравнение в виде:
У = 61 + В1 + + В Хк + и
где Хи = I для всех наблюдений. При использовании обычной алгебры чаще всего нет необходимости вводить Х1 в явной форме, и поэтому этой переменной нет. Единственный случай в этом учебнике, когда такая переменная может быть полезной,
![]() |
Необходимые условия первого порядка для минимума, т.е. -^^ = 0,
ЭЛЮ . ЭТШ1 Л Э^
-------- = 0 и---------- = 0, дают следующие уравнения:
дЬ2
^ -21« - ^ - № " №) = 0; (3.7)
Щ ы
^ = -21 - ^ - № - №) = 0; (3.8)
2 /=1
^ = -21 № ■" 4 " " №) = 0. (3-9)
Следовательно, мы имеем три уравнения с тремя неизвестными: Ь2 и Первое уравнение можно легко перегруппировать для выражения величины Ь{ через Ь2, Ьг и данные наблюдений для У, Х2 и Х3:
Ь1 = У-Ь2Х2-ЬЪХ3. (3.10)
Используя это выражение и два других уравнения, путем некоторых преобразований можно получить следующее выражение для Ь2:
^ \2
/=1
Ъг=------------ н--------- ;--------------------------------------------------------- (3.11)
V /=1 |
2 (х* - )2 £ - )Ч £ (Х21 - Х2) (Х„ - X,)
1=1 /=1
Аналогичное выражение для Ь3 можно получить путем перестановки Х2 и Х3 в уравнении (3.11).
Цель данного анализа состоит в выделении двух основных моментов. Во-первых, принципы, лежащие в основе вычисления коэффициентов регрессии, в случаях множественной и парной регрессии не различаются. Во-вторых, сами выражения, тем не менее, различаются. Поэтому не следует пытаться использовать выражения, выведенные для парной регрессии, в случае множественной регрессии.
Общая модель
В предыдущем примере мы имели только две независимые переменных. В тех случаях, когда этих переменных больше двух, уже невозможно дать геометрическое представление того, что происходит, но развитие алгебраических выкладок в принципе вполне очевидно. Допустим, что переменная Ксвязана с (с - 1 независимыми переменными Х2, ..., Хк в соответствии с неизвестной истинной зависимостью. Мы предполагаем, что переменная К зависит от к - 1
объясняющих переменных Х2, Хк в соответствии с неизвестной истинной формулой
r/=ß1 + ß2*2,. + ... + ßA + ", (3.12)
Оценим уравнение для данного множества п наблюдений для У, Х2, ..., Хк методом наименьших квадратов:
Г, =4 + b2X2i+„.+bkXki. (3.13)
Это вновь означает минимизацию суммы квадратов отклонений, а отклонение в наблюдении i выражается как
ei = Yi-Yi=Yi-b]-b2X2i-...-bkXki. (3.14)
Уравнение (3.14) является обобщением уравнения (3.5). Теперь мы выбираем bv ..., bk так, чтобы свести к минимуму RSS, сумму квадратов отклонений
V 2 N/r , - d/tos - ЭRSS п 2' е-. Мы получаем к условии первого порядка- = 0,..., = 0, что дает
ы\ ЪЬк
к уравнений для нахождения к неизвестных. Можно легко показать, что первое
из этих уравнений позволяет получить аналог уравнения (3.10), относящегося
к случаю с двумя независимыми переменными:
bl=Y-b2X2-...-bkXk.
(3.15)Выражения дня bv bk становятся очень сложными, и математическая сторона не будет здесь представлена в явном виде. Расчеты здесь должны быть сделаны с помощью матричной алгебры.
Интерпретация коэффициентов множественной регрессии
Множественный регрессионный анализ позволяет нам разграничить влияние независимых переменных, допуская при этом возможность их коррелиро- ванности. Коэффициент регрессии при каждой переменной X дает оценку ее влияния на величину Yв случае неизменности влияния на нее всех остальных переменных X.
Это может быть продемонстрировано двумя способами. Один из них состоит в выяснении того, что если модель правильно специфицирована и выполнены предпосылки регрессионной модели, то оценки получаются несмещенными. Это будет сделано в следующей главе для случая, когда имеются только две независимые переменные. Второй способ состоит в оценивании регрессионной зависимости Кот одной из переменных X, очистив предварительно переменные Y и X от составляющих, относящихся к другим объясняющим переменным. Оценка коэффициента наклона и ее стандартная ошибка в этом случае получаются точно такими же, как при оценивании множественной регрессии. Этот результат доказан теоремой Фриша-Вауга-Ловелла (Frisch, Waugh, 1933; Lovell, 1963). Отсюда следует, что диаграмма рассеяния для зависимости «очищенной» переменной У от «очищенной» переменной ^является корректным графическим представлением их взаимосвязи, которое невозможно получить каким-либо другим путем. Этот результат мы не будем доказывать, но он будет проиллюстрирован с помощью функции заработка в разделе 3.1:
EARNINGS = р, + P2S+ р гЕХР+и. (3.16)
Предположим, что нас особенно интересует зависимость между заработком и продолжительностью обучения и что мы хотели бы представить ее графически. Непосредственное построение точек зависимости EARNINGS от S, как это представлено на рис. 1.8, дает искаженный вид взаимосвязи, поскольку переменная ЕХР отрицательно коррелирована с S. Среди людей одинакового возраста, люди, которые провели в школе больше времени, чаще всего имеют меньше опыта работы. Вследствие этого, если S возрастает, то 1) EARNINGS будет иметь тенденцию к возрастанию, поскольку Р2 положительно; 2) ЕХР будет иметь тенденцию к убыванию, поскольку S и ЕХР отрицательно коррели- рованы, и 3) EARNINGS уменьшится благодаря убыванию ЕХР и тому, что р3 положительна. Другими словами, вариации величины EARNINGS не будут полностью отражать влияние вариаций в S, поскольку частично они будут вызваны связанными с этим вариациями в ЕХР. Вследствие этого при оценивании парной регрессии оценка Р2 будет смещена вниз. Мы исследуем это смещение аналитически в разделе 6.2.
В данном примере присутствует еще одна объясняющая переменная ЕХР. Чтобы «очистить» EARNINGS и Sot их составляющих, обусловленных ЕХР, мы сначала оценим их регрессии на ЕХР:
EARNINGS = с, + с2 ЕХР; (3.17)
S = dl+d2EXP. (3.18)
Далее вычтем полученные теоретические значения из фактических значений:
EEARN = EARNINGS - EARNINGS', (3.19)
ES = S~S. (3.20)
«Очищенные» переменные EEARN и ES — это, конечно, всего лишь остаточные члены регрессий (3.17) и (3.18). Далее мы оценим регрессию EEARN на ES и получим представленную в табл. 3.2 распечатку результатов.
В записи оценки свободного члена регрессии использовано обшее правило записи очень больших или очень маленьких чисел с заданным числом цифр. Запись е + п означает, что коэффициент должен быть умножен на 10". Аналогично е-п означает, что он должен быть умножен на 10"и. Итак, в нашей регрессии свободный член практически равен нулю.
Вы можете убедиться в том, что коэффициент при ES идентичен коэффициенту при S в множественной регрессии в разделе 3.1. Рисунок 3.2 представляет линию регрессии на диаграмме рассеяния. Пунктирная линия на рисунке — это парная регрессия EARNINGS на S и приведена для сравнения. Она немного более пологая, чем реальная зависимость EARNINGS от S, поскольку
. reg EEARN ES
|
она не учитывает эффект EXP. В этом случае отклонение мало, потому что мала корреляция между Sи ЕХР, равная -0,22. Но, даже принимая во внимание этот факт, диаграмма полезна, потому что она позволяет напрямую увидеть соотношение между заработком и продолжительностью обучения при фиксированном стаже работы. Наличие далеко лежащих наблюдений для больших значений S приводит к выводу, что модель была в чем-то неправильно специфицирована.
Упражнения
3.1. Ниже приведен результат оценивания функции продолжительности обучения, при котором строится регрессионная зависимость переменной Sot EXP, SMи SF (последние две переменные — число полных лет обучения матери и отца респондента) для набора данных EAEF 21. Дайте интерпретацию коэффициентов этой регрессии.
![]() Рисунок 3.2. Регрессионная зависимость остатков EARNINGS от остатков S |
■w*.
. regS ASVABC SM SF | ||||||
Source | SS | df | MS | Number of obs = | 540 | |
Model Residual | 1181.36981 2023.61353 | 3 536 | 393.789935 3.77539837 | F(3, 536) Prob > F R-squared = Adj R-squared Root MSE | 104.30 0.0000 0.3686 0.3651 1.943 | |
Total | 3204.98333 | 539 | 5.94616574 | |||
S | Coef. | Std. Err. | t | P>|t| | [95% Conf. | Interval] |
ASVABC | .1257087 | .0098533 | 12.76 | 0.000 | .1063528 | .1450646 |
SM | .0492424 | .0390901 | 1.26 | 0.208 | -.027546 | .1260309 |
SF | .1076825 | .0309522 | 3.48 | 0.001 | .04688 | .1684851 |
_cons | 5.370631 | .4882155 | 11.00 | 0.000 | 4.41158 | 6.329681 |
}_2. Постройте функцию заработка аналогично тому, как это сделано в упражнении 3.1, на основе вашего набора данных EAEF. Сначала постройте регрессию S на ASVABC и SM и проинтерпретируйте результаты оценивания регрессии. Повторите построение регрессии, используя SF вместо SM, а потом снова включив и SM, и SF в качестве регрессоров. Известно высказывание, что если вы учите мальчика, то вы учите личность, а если вы учите девочку, то вы учите народ. Суть заключается в том, что хорошее образование будущей матери оказывает положительный эффект на достижения ее детей в учебе. Подтверждают ли результаты оценивания вашей регрессии данную точку зрения?
УЗ. Постройте функцию продолжительности обучения аналогично тому, как это сделано в разделе 3.1, на основе набора данных EAEF. Постройте регрессию EARNINGS на S и ЕХР и дайте интерпретацию результатов.
Воспользовавшись вашим набором данных EAEF, представьте графически взаимосвязь между переменными S и SM, используя метод Фриша-Вауга-Ловелла, предположив, что истинная модель — та же, что и в упражнении 3.2. Чтобы сделать это, оцените регрессию S на ЕХР и SFn сохраните остатки. Сделайте то же самое с переменной SM. Нанесите на график остатки S и SM. Оцените также регрессию между ними и убедитесь в том, что коэффициент наклона здесь такой же, как и полученный в упражнении 3.2.
'S. Объясните, почему свободный член в регрессии EEARN от ES равен нулю.
Еще по теме 3.2. Вывод и интерпретация коэффициентов множественной регрессии:
- 5.2. Вывод и интерпретация коэффициентов множественной регрессии
- 3.3. Свойства коэффициентов множественной регрессии
- 5.4. Свойства коэффициентов множественной регрессии
- 2.6. Интерпретация уравнения регрессии
- Интерпретация уравнения регрессии
- 5.3. Множественная регрессия в нелинейных моделях
- 3.1. Случайные составляющие коэффициентов регрессии
- 2.3. Случайные составляющие коэффициентов регрессии
- 2.6. Точность коэффициентов регрессии
- Несмещенность коэффициентов регрессии
- 3.5. Точность коэффициентов регрессии
- 8.2. Свойства оценок коэффициентов регрессии по МНК в случае конечной выборки