2.2. Регрессия по методу наименьших квадратов
С самого начала необходимо признать, что вы никогда не сможете рассчитать истинные значения аир при попытке построить прямую и определить положение линии регрессии. Вы можете получить только оценки, и они могут быть хорошими или плохими. Иногда оценки могут быть абсолютно точными, но это возможно лишь в результате случайного совпадения, и даже в этом случае у вас не будет способа узнать, что оценки абсолютно точны.
Это справедливо и при использовании более совершенных методов. Построение линии регрессии на глаз является достаточно субъективным.
Более того, как мы увидим в дальнейшем, это просто невозможно, если переменная у зависит не от одной, а от двух или более независимых переменных. Возникает вопрос: существует ли способ достаточно точной оценки а и р алгебраическим путем? Рис. 2.2. Прямая, построенная по точкам |
Первым шагом является определение остатка для каждого наблюдения. За исключением случаев чистого совпадения, построенная вами линия регрессии не пройдет точно ни через одну точку наблюдения. Например, на рис. 2.3 при х = х1 соответствующей ему точкой на линии регрессии будет Л1 со значением у, которое мы обозначим вместо фактически наблюдаемого значения у{.
Величина ^ описывается как расчетное значение >>, соответствующеех,. Разность между фактическим и расчетным значениями (ух — определяемая отрезком Р|Лр описывается как остаток в первом наблюдении. Обозначим его ег Соответственно, для других наблюдений остатки будут обозначены как е2, е3 и е4.Очевидно, что мы хотим построить линию регрессии таким образом, чтобы эти остатки были минимальными. Очевидно также, что линия, строго соответствующая одним наблюдениям, не будет соответствовать другим, и наоборот. Необходимо выбрать какой-то критерий подбора, который будет одновременно учитывать величину всех остатков.
Существует целый ряд возможных критериев, одни из которых «работают» лучше других. Например, бесполезно минимизировать сумму остатков. Сумма будет автоматически равна нулю, если вы сделаете а равным у, ар
равным нулю, получив горизонтальную линию у = у. В этом случае положительные остатки точно уравновесят отрицательные, но строгой зависимости при этом не будет.
Один из способов решения поставленной проблемы состоит в минимизации суммы квадратов остатков 5. Для рис. 2.3 верно такое соотношение:
с 2 2 2 2 и ^
^ = е\ + е2 + е3 + е4 •
Рис. 2.3. Построенная по точкам линия регрессии, показывающая остатки |
Величина S будет зависеть от выбора а и Ь, так как они определяют положение линии регрессии. В соответствии с этим критерием, чем меньше S, тем строже соответствие. Если S= О, то получено абсолютно точное соответствие, так как это означает, что все остатки равны нулю. В этом случае линия регрессии будет проходить через все точки, однако, вообще говоря, это невозможно из-за наличия случайного члена.
Существуют и другие достаточно разумные решения, однако при выполнении определенных условий метод наименьших квадратов дает несмещенные и эффективные оценки а и р. По этой причине метод наименьших квадратов является наиболее популярным в вводном курсе регрессионного анализа. В данной работе рассматривается обычный метод наименьших квадратов (МНК, или OLS — ordinary least squares). В последующих разделах будут рассмотрены другие его варианты, которые могут быть использованы для решения некоторых специальных проблем.
Еще по теме 2.2. Регрессия по методу наименьших квадратов:
- 2.3. Регрессия по методу наименьших квадратов: два примера
- 1.2. Регрессия методом наименьших квадратов
- Регрессия методом наименьших квадратов: два примера
- Регрессия методом наименьших квадратов с одной независимой переменной
- 2.5. Регрессия по методу наименьших квадратов с одной независимой переменной
- 11.7. Двухшаговый метод наименьших квадратов (ДМНК)
- 11.3. Косвенный метод наименьших квадратов (КМНК)
- ФИЛОСОФИЯ жизни В ПЕРВОМ КВАДРАТЕ
- ТРЕТИЙ КВАДРАТ. МАНИПУЛЯЦИЯ
- А 9 . Сложить квадрат
- ВТОРОЙ КВАДРАТ. КОНФЛИКТ
- 4.4. Нелинейная регрессия
- Помощь в квадрате
- ЧЕТВЕРТЫЙ КВАДРАТ. ВОЗРАЖЕНИЯ