8.4. Последствия ошибок измерения
В экономике при исследовании какой-либо зависимости используемые переменные часто оказываются не вполне правильно измеренными. Например, такие макроэкономические переменные, как ВВП, оцениваются на основе выборочных наблюдений, поэтому полученные значения являются приближенными. Например, в микроэкономических обследованиях часто имеются ошибки по вине опрашиваемого, который чего-то не помнит или неправильно понимает вопрос. Вместе с тем, сообщение неправильных сведений является не единственным источником неточностей.
Иногда случается, что вы каким-то образом определили переменную в своей модели, но имеющиеся данные свидетельствуют о несколько другом определении. Широко известным примером такого случая является критический анализ М. Фридме- ном стандартной функции потребления (раздел 8.5).Ошибки измерения в объясняющих переменных
Предположим, что переменная У зависит от переменной Zв соответствии с зависимостью
З^ + Р^ + Ур (8.16)
где V — случайный член с нулевым математическим ожиданием и дисперсией о2, распределенный независимо от Z. Предположим, что Zнeвoзмoжнo измерить абсолютно точно, и мы будем использовать ЛГдля обозначения его измеренного значения. В /-м наблюдении X равно истинному значению 21 плюс ошибка измерения V/..
ХГ2Лу*.1. (8.17)
Предположим, что и* имеет нулевое математическое ожидание и дисперсию о^, что 7 имеет теоретическую дисперсию а2 и что IV распределено независимо от Zи V.
Подставив (8.17) в уравнение (8.16), получим
+ № - + V,. = Р,+ + V,. - рЛ (8.18)
Это уравнение имеет две случайные составляющие — первоначальный случайный член V и ошибку измерения м> (умноженную на -(32). Вместе они образуют составной случайный член, который мы назовем и:
«(. = у,-Р2м>, (8.19)
Соотношение (9.8) можно теперь записать как
^р^р^. + н, (8.20)
У нас есть значения переменных У (временно мы будем предполагать, что они измерены точно) и X, и мы без каких-либо сомнений оцениваем регрессию УнаХ Однако в соответствии с уравнениями (8.17) и (8.19) какЛ^., так и мг.зависят от Поскольку они имеют общую составляющую, допущение (В.7) нарушено и, как следствие, Ь2 не является состоятельной оценкой Р2. Далее это будет продемонстрировано.
Коэффициент регрессии Ь, как обычно, представляется выражением
Ь-------------------------------------------------------------------- •
К*,-*)2 /=1 /•=1
Так как Хя и не являются независимо распределенными величинами, не существует простого способа описать результирующее поведение остаточного члена в малых выборках. Мы не можем даже получить выражения для его математического ожидания. Его преобразование как Х0/"/' где а/ определено согласно уравнению (8.8), не помогает, поскольку Е) = X ^ ) не может быть разложено как X Е (а,) Е (и,) ввиду того, что а(. не является независимым от иг Самое большее, что можно сделать, — предсказать поведение остаточного члена в том случае, если бы выборка была очень большой. В представленном виде ни числитель, ни знаменатель не сходятся к конечным пределам при увеличении размера выборки. Однако если поделить и числитель и знаменатель на п, то проблема решается, так как может быть показано, что
(8.22) |
рИш
Vй ы
и
р1ш |
УПг. |
(8.23)
Поэтому
р1ип Ь2 = Р2 + |
(8.24) |
соу(Х,и) уат(Х) '
Остаточный член может быть проанализирован более подробно, если обратить внимание на составляющие величин Хи и.
При этом будут использованы правила расчета теоретических ковариаций и дисперсий, которые были сформулированы в разделе 0.4 главы «Обзор». Начнем с числителя остаточного члена:соу (X, и) = соу ((2 + iv), (у - Р2и>)) =
(8.25) |
= соу (2, у) + соу(и>, у) + соу ^,-р2и>) + соу -р2 ю).
Допустим, что случайный член первоначальной модели удовлетворяет условиям регрессионной модели, поэтому он распределен независимо от I. Допустим также, что ошибка измерения у* распределена независимо от Zи V. В таком случае первые три ковариации в правой части уравнения равны нулю. Однако последняя ковариация равна Р2уаг(н'). Поэтому
соу(Х,и) = -Р2 уаг (м>) = -р2а2. Теперь рассмотрим знаменатель:
уаг(Х) = уаг(2 + и>) = уаг (2) + уаг(н>)+2 соу^, w) = a2z+ а2
(8.26) (8.27) |
ввиду допущения, что соу(д и») = 0. Поэтому
рНт
(8.28) |
рПгп Ъ2 -р2 +- |
_ п 1=1________________
-в --
4 |
2 2
Таким образом, мы показали, что на больших выборках коэффициент Ь2 подвержен смещению из-за наличия ошибки измерения, что приводит к преуменьшению коэффициента по абсолютному значению (смещение отрицательно при положительном р2 и отрицательно при отрицательном Р2).
Мы предположили, что распределение и> независимо от у и 2.
Первое допущение является обычно правдоподобным, так как нет оснований полагать,
что ошибка измерения какой-либо объясняющей переменной будет коррелировать со случайной ошибкой. Тем не менее, может потребоваться отказ от второго допущения. В таком случае Ь2 будет несостоятельной оценкой, однако выражение для смещения будет более громоздким (см. упражнение 8.5).
Следствия равенства (8.28) довольно очевидны. Чем больше теоретическая дисперсия ошибки измерения по отношению к теоретической дисперсии Z, тем больше будет смещение. Например, если бы а2 было равно 0,25с|, то смещение составило бы
(8.29)
что равняется -0,2р2. Даже если бы выборка была очень большой, оценка была бы на 20% ниже истинного значения при положительном Р2 и на 20% выше его при отрицательном (32.
К г Рисунок 8.1. Эффект ошибки измерения в объясняющей переменной |
Рисунок 8.1 показывает, как ошибка измерения приводит к появлению смещенных коэффициентов регрессии, если использовать модель, представленную выражениями (8.16) и (8.17). Кружочки представляют наблюдения по 2 и У, где величины У генерированы по формуле типа (8.16), а пунктирная линия представляет истинную зависимость. Заштрихованные кружочки представляют наблюдения Хи У, а ошибки измерения в каждом случае вызывают горизонтальный сдвиг, показанный сплошными горизонтальными линиями. Положительные ошибки наблюдения ведут к тому, что точки лежат под линией истинной зависимости, а отрицательные — к тому, что точки лежат над ней. Это приводит к тому, что график зависимости между X и У выглядит более пологим, чем график зависимости между Zи У, а оцененная линия регрессии будет в тенденции занижать наклон истинной зависимости. Чем больше дисперсия ошибки измерения по отношению к дисперсии 2, тем больше будет эффект уменьшения наклона и тем сильнее будет смещение.
У
Несовершенные замещающие переменные
В гл. 6 было показано, что если мы не можем получить данные об одной из объясняющих переменных в регрессионной модели и оцениваем регрессию без нее, то коэффициенты при других переменных, вообще говоря, будут смещенными, а их стандартные ошибки — некорректными. Однако в разделе 6.4 мы видели, что если можно найти полноценную замену для отсутствующей переменной, т.е. другую переменную, имеющую с ней точную линейную зависимость, и использовать ее в регрессии вместо отсутствующей переменной, то основная часть результатов регрессии будет сохранена. Таким образом, коэффициенты при других переменных не будут смещенными, их стандартные ошибки и соответствующие /-тесты будут обоснованными, а Я2 будет таким же, как если бы мы могли непосредственно включить переменную, которую невозможно измерить. Мы не сможем получить оценку коэффициента последней, но /-статистика для замещающей переменной будет такой же, как /-статистика для неизмеримой переменной.
К сожалению, крайне редко удается найти идеальную замещающую переменную. Обычно самое большее, на что мы можем рассчитывать, — это замещающая переменная, приблизительно линейно связанная с отсутствующей переменной. Последствия использования несовершенной замещающей переменной (взамен совершенной) близки к последствиям использования переменной, подверженной воздействию ошибки измерения (вместо переменной, когда такие ошибки отсутствуют). Они заключаются в том, что коэффициенты регрессии оказываются смещенными, оцененные стандартные ошибки некорректны и т.д.
Вместе с тем, вы можете признать оправданным использование замещающей переменной, если имеются основания полагать, что степень ее несовершенства не настолько велика, чтобы смещение было серьезным, а стандартные ошибки вводили в заблуждение. Так как обычно нет способа проверить, насколько велика или мала степень несовершенства, решение об использовании замещающей переменной или отказе от него приходится принимать, основываясь на субъективных соображениях и учитывая конкретные условия, связанные с моделью.
Ошибки измерения зависимой переменной
Ошибки измерения зависимой переменной не имеют столь большого значения. На практике их можно считать составляющими случайного члена. Они нежелательны, так как все, что повышает «уровень шума» в модели, приводит к уменьшению точности оценок коэффициентов регрессии; тем не менее, они не вызывают смещения этих оценок.
Предположим, что истинное значение зависимой переменной равно не равно нулю (но н» распределено независимо от 2);
2) у/ не распределено независимо от 2 (но его математическое ожидание равно нулю).
Исследователь, изучающий теневую экономику на основе данных перекрестной выборки по 25 странам, предполагает, что расходы на теневые товары и услуги О связаны с общими потребительскими расходами Z зависимостью
е = Р, + Р27+у,
где у — случайный член, удовлетворяющий условиям регрессионной модели. Расходы 0 являются частью Z, и любая ошибка измерения 0 воздействует на оценку Z в том же размере. Следовательно,
и
где У1 — оцененная величина (}:, Х1 — оцененная величина 2:, и>( — ошибка измерения, влияющая на обе переменные в наблюдении г. Предполагается, что математическое ожидание М! равно нулю, а V и и» распределены независимо от 2та друг от друга.
1) Если возможно, выведите формулу для смещения оценки р2 на больших выборках при использовании обычного МНК для оценивания регрессии У от X, определите его знак. (Замечание. Стандартное выражение для смещения при наличии ошибок измерения в этом случае неверно.)
2) При проведении эксперимента методом Монте-Карло для описанной выше модели истинная зависимость между 0 и Z имеет вид
■" 1
0 5/V Ю
Еще по теме 8.4. Последствия ошибок измерения:
- 8.2. Последствия ошибок измерения
- Опыт чужих ошибок
- Классификация возможных ошибок
- 5.5. ПОТЕНЦИАЛЬНЫЕ ИСТОЧНИКИ ОШИБОК В ОПИСАТЕЛЬНЫХ ИССЛЕДОВАНИЯХ
- Способы исправления ошибок
- Исправление ошибок в налоговой декларации
- Обязанности аудитора по рассмотрению ошибок и недобросовестных действий при проведении аудита
- 4.2. Способы исправления ошибок в учетных регистрах
- 6.2.5. Исправление ошибок в бухгалтерском учете
- Обязанности аудитора при выявлении ошибок и недобросовестных действий в ходе аудита
- СЕМЬ ТИПИЧНЫХ УПРАВЛЕНЧЕСКИХ ОШИБОК - И ИХ УСТРАНЕНИЕ
- Не повторяйте одних и тех же ошибок
- Несколько классических ошибок реализации расширения
- Выборочная вероятностно-статистическая процедура, основанная на нормальном распределении размера ошибок
- РАЗДЕЛ I АНАЛИЗ ОШИБОК, СВЯЗАННЫХ С БИЗНЕС-ПЛАНИРОВАНИЕМ В ЦЕЛОМ