ОБЗОР: СЛУЧАЙНЫЕ ПЕРЕМЕННЫЕ, ВЫБОРКИ И ОЦЕНКИ
Изучение вводного курса статистики является обязательным условием для любого серьезного курса эконометрики. И вот почему. Курс эконометрики преследует две цели. Во-первых, необходимо показать, как различные количественные методы могут быть использованы для моделирования статистических данных.
Это относительно просто. Вторая цель — выработать понимание статистических свойств этих методов, а также того, почему они работают в одних случаях, но не работают в других. Это гораздо сложнее. Поэтому именно такой навык является реально востребованным, — здесь нужны хорошие базовые знания теории статистики. Если вы не изучали статистику, то вам на время следует отложить эту книгу в сторону и вернуться к ней, изучив основы статистики.Что вы должны знать из курса статистики
Вводный курс статистики обычно востребован в различных дисциплинах. По этой причине некоторые его темы не имеют большого значения для эконометрики. За исключением глав, посвященных выборкам, оценкам и гипотезам, другие главы, которые имеют отношение к курсам бизнеса или психологии, во многом расходятся с тематикой эконометрики.
Далее перечислен список тем из теории статистики, которые нужно знать для изучения эконометрики.Описательная статистика. Распределения частот и графическое представление, включая гистограммы (но не в виде деревьев); линейные графики; меры положения и вариации (среднее значение, медиана, мода, дисперсия и стандартное отклонение). Этот обычный материал не должен вызывать затруднения.
Вероятность. Пространство событий, относительная частота, понятие вероятности; предельная и условная вероятности. Для наших целей простого понимания этих явлений будет достаточно. Теорему Байеса знать не обязательно.
Случайные переменные, распределения вероятностей и ожидания.
Этот материал требует внимания. Тем не менее, нет смысла изучать все статистические распределения, которые интересны статистикам. Вам нужно понимать свойства нормального распределения, а также биномиального распределения. Остальные распределения знать не обязательно.Выборки. Достаточно знания простой случайной выборки. Вам не следует тратить время на стратификацию или кластеры, хотя вы наверняка встречались с этими темами, если проводили опросы. Вы не обязаны знать о выборках без замещения.
Оценки. Понимание разницы между способом оценивания и оценкой имеет большое значение. Вы обязаны знать о несмещенности, дисперсии и оценивании дисперсии.
Статистический вывод. Вы обязательно должны глубоко понимать смысл статистических выводов. Вам нужно знать разницу между ошибками первого рода и второго рода, понимать, что такое уровень значимости теста, а также логику использования одностороннего или двустороннего теста. Вы должны уметь проводить /- и /Честы, но знать математические формулы /- и ^-рас- пределений необязательно. Вам должны быть известны доверительные интервалы. Обязательно уметь применять все эти понятия для проверки гипотез. Необязательно тратить время на проверку гипотез, относящихся к разностям средних значений выборок, или гипотез, относящихся к выборочным пропорциям.
Дисперсионный анализ. Желательно знать эту тему, но это не самое важное.
После изучения этих тем вводного курса статистики, вероятно, можно сосредоточиться на введении в регрессионный анализ; поскольку для многих студентов, изучивших курс статистики, эконометрика не будет отдельным курсом, полезно изучить введение в эту тему. Возможно, это так, но для наших целей это пока еше преждевременно и будет ненужным дублированием.
Обзор этих тем не может заменить изучения курса статистики. Он делается лишь для того, чтобы дать возможность повторить и закрепить статистические понятия, которые особенно нужны для эконометрического анализа. Скорее всего, вам будете не известна только одна тема — асимптотические свойства способов оценивания (свойства, когда выборка становится очень большой).
Эта тема имеет для нас большое значение. Наш обзор не касается проверки гипотез. Принципы проверки гипотез рассмотрены в контексте регрессионного анализа, но если вы никогда не были знакомы с этой темой, вам следует изучить ее самостоятельно, до того, как вы займетесь эконометрикой.0.2. Дискретная случайная переменная и математическое ожидание
Дискретная случайная переменная
Интуитивного понимания вероятности почти наверняка достаточно для изучения этой книги. Мы начнем непосредственно с дискретных случайных переменных. Случайная переменная — это любая переменная, значение которой не может быть точно предсказано. Дискретной называется случайная ве- личина, имеющая определенный набор возможных значений. Пример — сумма выпавших очков при бросании двух игральных костей. Примером случайной величины, не являющейся дискретной (т.е. непрерывной), может быть температура в комнате. Она может принять любое из непрерывного диапазона значений и является примером непрерывной случайной величины. К таким величинам мы перейдем в этом обзоре позже.
Продолжая разговор о примере с двумя игральными костями, предположим, что одна из них зеленая, а другая — красная. Если их бросить, то возможны 36 исходов эксперимента, поскольку на зеленой кости может выпасть любое число от 1 до 6, и то же самое — на красной. Случайная переменная, определенная как их сумма, которую мы обозначим через X, может принимать только одно из 11 значений — чисел от 2 до 12. Взаимосвязь между исходами эксперимента и значениями данной случайной величины показана на рис. 0.1.
Красная | Зеленая | ||||||
1 | 2 | 3 | 4 | 5 | 6 | ||
1 | 2 | 3 | 4 | 5 | 6 | 7 | |
2 | 3 | 4 | 5 | 6 | 7 | 8 | |
3 | 4 | 5 | 6 | 7 | 8 | 9 | |
4 | 5 | 6 | 7 | 8 | 9 | 10 | |
5 | 6 | 7 | 8 | 9 | 10 | 11 | |
6 | 7 | 8 | 9 | 10 | 11 | 12 |
Рисунок 0.1.
Исходы для примера с двумя костямиПредположив, что кости «правильные», мы можем воспользоваться рис. 0.1 для определения вероятности получения каждого значения X. Поскольку на костях имеется 36 различных комбинаций, каждый исход имеет вероятность 1/36. Лишь одна из возможных комбинаций — {зеленая = 1, красная = = 1} — дает сумму, равную 2, так что вероятность X— 2 равна 1/36. Чтобы получить сумму X = 7, нам потребуются сочетания {зеленая = 1, красная = 6}, либо {зеленая = 2, красная = 5}, либо {зеленая = 3, красная = 4}, либо {зеленая = 4, красная = 3}, либо {зеленая = 5, красная = 2}, либо {зеленая = 6, красная = 1}. В данном случае нас устроят 6 возможных исходов, и поэтому вероятность получения 7 равна 6/36. Все эти вероятности приведены в табл. 0.1. Если все их сложить, то получится ровно единица. Это будет так, поскольку с вероятностью 100% рассматриваемая сумма примет одно из значений от 2 до 12.
Совокупность всех возможных значений случайной переменной описывается генеральной совокупностью, из которой извлекаются эти значения. В нашем случае генеральная совокупность — это набор чисел от 2 до 12.
Таблица 0.1. Распределение вероятностей для примера с двумя костями
|
Математическое ожидание дискретной случайной величины
Математическое ожидание дискретной случайной величины — это взвешенное среднее всех ее возможных значений, причем в качестве весового коэффициента берется вероятность соответствующего исхода. Вы можете рассчитать его, перемножив все возможные значения случайной величины на их вероятности и просуммировав полученные произведения. Математически, если случайная величина обозначена как X, то ее математическое ожидание обозначается как Е(Х).
Предположим, что Сможет принимать п конкретных значений (х], х2,хп) и что вероятность получения х1 равна рг Тогда
п
Е(Х) = хх я+...+*„/>„ (0.1)
ы
(Читатели, желающие освежить в памяти использование обозначений Е, могут сделать это с помощью Приложения 0.1).
В случае с двумя костями величинами от хх до хп были числа от 2 до 12: х, = 2,х2 = 3, ...,хп = 12, и/7, = 1/36, р2 = 2/36,, = 1/36. Наиболее простой и аккуратный способ расчета математического ожидания осуществляется с помощью таблиц. Левая часть табл. 0.2 показывает ход расчетов в абстрактной форме. В правой части показан ход расчетов для конкретного примера. Как можно видеть из таблицы, математическое ожидание здесь равняется 7.
Прежде, чем пойти дальше, рассмотрим еще более простой пример случайной переменной, число очков, выпадающее при бросании лишь одной игральной кости.
В данном случае возможны шесть исходов: х{ = 1, х2 = 2, = 3, х4 = 4, х5 = 5, х6= 6. Каждый из них имеет вероятность 1/6. Воспользовавшись этим при
Таблица 0.2. Математическое ожиданиеX(пример с бросанием двух игральных костей)
|
/=1 |
расчете математического ожидания, получаем его значение, равное 3,5. Таким образом, в данном случае математическое ожидание случайной величины есть число, которое само не является одним из ее возможных значений
Математическое ожидание случайной величины часто называют ее теоретическим средним. Теоретическое среднее для случайной величины X часто обозначают как или просто ц, если это не приводит к неоднозначности.
Математические ожидания функций дискретных случайных -еременных
Пусть £(Х) — некоторая функция от X. Тогда Е^{Х)}, математическое ожидание А), записывается как
п
£[£(*)] = £(*! )Рх +...+g(xn)pn=У£g(xi)pi, (0.2)
/=1
где суммирование производится по всем возможным значениям X.
В левой части табл. 0.3 показан процесс расчета математического ожидания некоторой функции от X. Предположим, что X может принимать п различных значений от х, до хп с соответствующими вероятностями от до рп. В первом столбце записывают возможные значения X. Во втором записываются соответствующие вероятности. В третьем столбце рассчитываются значения функции для соответствующих величин X. В четвертом столбце перемножаются числа из второго и третьего столбцов. Ответ приводится в суммирующей строке четвертого столбца.
Таблица 0.3. Математическое ожидание д(Х) (пример с двумя игральными костями) Математическое ожидание, д(Х) Математическое ожидание, X2
Всего £{[£(*)]=54,83 /=1 |
В правой части табл. 0.3 показан процесс расчета математического ожидания величины X1 для примера с двумя игральными костями. Вы можете решить, что оно равно цд2, но это не так. Е{Х-) равно 54,83. В табл. 0.2 было показано, что математическое ожидание Л'равно 7. Таким образом, ДА"2) не равно цх2, что означает необходимость тщательно различать Е(Х2) и [Е(Х)]2 (последнее равно произведению Е(Х) и Е(Х), т.е. цх2).
Правила расчета математического ожидания
Существуют три правила, которые далее будут использоваться много раз. Эти правила почти очевидны, и они одинаково применимы для дискретных и непрерывных случайных переменных.
Правило 1. Математическое ожидание суммы нескольких переменных равно сумме их математических ожиданий. Например, если имеются три случайные переменные X, Y и Z, то
E(X + Y + Z)=E(X)+E(Y)+E(Z). (0.3)
Правило 2. Если случайная переменная умножается на константу, то ее математическое ожидание умножается на ту же константу. Если X — случайная переменная и Ъ — константа, то
Е{ЬХ) = ЬЕ(Х). (0.4)
Правило 3. Математическое ожидание константы есть она сама. Например, если b — константа, то
E(b)=b. (0.5)
Доказательство правила 2 предоставляем читателю в упражнении 0.5. Правило 3 тривиально, поскольку оно следует из определения константы. Доказательство правила 1 относительно простое, и мы его опустим.
Объединяя все три правила вместе, можно упростить и более сложные выражения. Например, предположим, что вы хотите рассчитать Е(У), где
Y=b]+b2X, (0.6)
и Ь2 — константы. Следовательно,
E(Y)=E(b] +b1X) =
= £(£,) + E{bjX) согласно правилу 1
= + b2E(X) согласно правилам 2 и 3. (0.7)
Таким образом, вместо непосредственного вычисления E(Y) можно рассчитать Е(Х) и получить E(Y) из уравнения 0.7.
Теоретическая дисперсия дискретной случайной переменной
В этой книге нас будет интересовать одна из функций переменной X, ее теоретическая дисперсия, являющаяся полезной мерой разброса для вероятностного распределения. Она определяется как математическое ожидание квадрата разности между величиной А' и ее математическим ожиданием, то есть, величины (X - \1Х)2, где \хх — математическое ожидание X. Дисперсия обычно обозначается как о2х, и если ясно, о какой переменной идет речь, то нижний индекс может быть опущен:
п
с2х = Е\(Х -11)2 ] = (*, - ц)2 р{ +... + (*, - ц)2 Р, = XуТ
IV
01 23456789 Рисунок 0.13. Распределение /для выборки размером 20,100 и 1000 |
а среднее — 5,05. Когда размер выборки вырос до 1000, мода стала равной 4,99, а среднее 5,005. Поэтому, несмотря на то что существует смещение для 20 наблюдений, оно в основном исчезает для 100, и оценки становятся практически несмещенными для 1000.
Конечно, эти выводы достоверны только для конкретного случая, в котором были сгенерированы Z, Yи X. Если бы у нас было другое среднее значение Z, другие стандартные отклонения Zw случайной ошибки или другое значение X, то, возможно, наши результаты в отношении величины смещения как функции от размера выборки были бы другими. Если бы мы были серьезно заинтересованы в свойствах оценки, то провели бы дополнительный анализ чувствительности зависимости. Наша цель состояла только в том, чтобы показать, что моделирование может пролить свет на некоторые вещи там, где
математические выкладки помочь неспособны.
і
Центральная предельная теорема
Если случайная величина X имеет нормальное распределение, ее выборочное среднее X будет также нормально распределенным. Этот факт удобен для построения ґ-статистик и доверительных интервалов, если мы используем А как оценку для теоретического среднего. Однако, что случится, если мы не может предположить, что величина Анормально распределена? Здесь к нам на помощь приходит центральная предельная теорема. Она утверждает, что если Х( в выборке получены независимо друг от друга на основе одного и того же распределения (распределения X) при условии, что это распределение имеет конечное теоретическое среднее и дисперсию, то распределение Xбудет сходиться к нормальному распределению. Это означает, что r-статистики и доверительные интервалы будут приблизительно достоверны, при условии, что размер выборки достаточной велик. На самом деле существует множество центральных теорем. Некоторые из них позволяют ослабить предположения, связанные с распределением^.. Для обсуждения технических деталей см. Вставку 0.2.
Зставка 0.2. Центральная предельная теорема
Упрощенная версия центральной предельной теоремы, изложенная здесь, предполагает, что выборочные значения X; идентично независимо распределены (иМ.) с теоретическим средним ]хх и дисперсией су. При этом предположении Сбудет иметь теоретическое среднее \хх и дисперсию
Еще по теме ОБЗОР: СЛУЧАЙНЫЕ ПЕРЕМЕННЫЕ, ВЫБОРКИ И ОЦЕНКИ:
- ОБЗОР: СЛУЧАЙНЫЕ ПЕРЕМЕННЫЕ И ТЕОРИЯ ВЫБОРОК
- Случайная выборка
- Обзор «переменных», влияющих на ход конфликта
- Обзор методов прогнозирования и оценки спроса
- Глава 8. Измерение и оценка затрат предприятия на базе переменных расходов (директ-костинг)
- III Естественная классификация преступников. — Преце-денты. — Преступники привычные и случайные. — Пять основных категорий: преступники помешанные, прирожденные, привычные, случайные, по страсти. — Их различия. — Относительные количества их. — Другие классификации. — Выводы.
- 14.3. Регрессии со случайным эффектом
- Виды выборки
- Разновидности выборки
- 2.3. Случайные составляющие коэффициентов регрессии
- 3.3.4. Моделирование случайных векторов
- Расслоенная выборка
- 9.3. ВЕРОЯТНОСТНЫЕ И НЕВЕРОЯТНОСТНЫЕ СПОСОБЫ ПОСТРОЕНИЯ ВЫБОРКИ
- 4.3. Случайный член
- Формирование выборки при использовании статистических методов
- 4.3. Случайный член
- 3.3. Предположения о случайном члене
- Аудиторская выборка
- 3.3.2. Моделирование случайных событий
- Аудиторская выборка