<<
>>

12.1. ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ

После того, как данные, полученные в ходе формализован ного опроса или наблюдения, подготовлены к обработке, преж де всего, проводится их базовый анализ: расчет частотных распределений {frequency distribution), кросс-табуляция (cross- tabulation) и проверка гипотез о связях и о различиях.

Надо отметить, что в очень многих маркетинговых проектах исследователи ограничиваются первичным анализом данных.

При этом в подавляющем числе случаев речь идет о построении частотных распределений и кросс-табуляции. Форма представ ления этих результатов исследования понятна менеджерам мар кетинга: их легко интерпретировать в терминах принятия ре альных маркетинговых решений. Поэтому в данном разделе мы ограничимся рассмотрением именно этих, наиболее важных, с нашей точки зрения, вопросов.

Расчет частотных распределений позволяет дать ответ, на пример, на следующие вопросы.

— Сколько потребителей бренда лояльны (преданны) по отношению к нему?

Какую долю рынка составляют пользователи (тяжелые, средние, легкие) и непользователи?

Сколько потребителей хорошо, средне, мало и совсем не знакомы с новым продуктом фирмы?

Каково распределение доходов потребителей определен ного бренда? Верно ли, что оно смещено в сторону относительно низких доходов?

В программном пакете SPSS расчет частотных распределе ний осуществляется командой Frequencies (меню Analyze —» Descriptive Statistic —» Frequencies).

Приведем в качестве примера частотное распределение от ветов респондентов на вопрос о степени их знакомства с определенной сетью магазинов! (табл. 25).

Табл. 25.

Частотное распределение ответов респондентов на вопрос о степени их знакомства с определенной сетью магазинов Frequency Percent Valid Cumulative Значения Варианты (Частота, (Процент percent (Процент percent (Процент ответов с которой от числа от числа допустимых встречалось значение) всех значений) допустимых значений) -гарастаюшдо итогом) Valid (Допусти-мые) 1.

Почти не знаю 36 13,3 13,3 13,3 2 41 15,1 ' 15,2 28,5 3 52 19,2 19,3 47,8 4 43 15,9 15,9 63,7 5 36 13,3 13,3 77,0 6. Очень хо 62 22,9 23,0 100,0 рошо знаю Total (Всего) 270 99,6 100,0 Missing (Отсут-ствующие) 0 1 0,4 — — Total (Всего) — 271 100,0 — —

Мы видим (табл. 25), что всего был опрошен 271 респондент. Один из опрошенных не оценил степень своего знакомства с магазином. Это отражено в соответствующем столбце таблицы данных нулевым значением, которое было установлено в каче стве кода пропуска. Очень хорошо знакомыми с сетью магазинов посчитали себя 62 респондента, что составило 22,9% от числа всех опрошенных или 23,0% от числа ответивших на вопрос.

Данные, приведенные в таблице, становятся наглядными благодаря диаграмме частот (рис. 15), возможность построения которой также предусмотрена в команде Frequencies.

почти не знаю 3 5

2 4 очень хорошо знаю

Рис. 15. График частотного распределения ответов респондентов на вопрос о степени их знакомства с определенной сетью магазинов

Зная распределение частот, можно рассчитать его статисти ческие характеристики. Различают два типа этих характеристик: описывающие основную тенденцию в ответах (measures of loca tion) и описывающие разнообразие ответов (measures of variability).

ХАРАКТЕРИСТИКИ ОСНОВНОЙ ТЕНДЕНЦИИ В ОТВЕТАХ

Основную тенденцию в ответах характеризуют три показа теля: мода, медиана и среднее значение (см. также с. 198). Приведем результаты расчета этих значений (табл. 26) в про граммном комплексе SPSS (меню Analyze —> Custom Tables —> Basic Tables).

Табл. 26.

Статистические характеристики центральной тенденции в ответах респондентов на вопрос об их информированности

о сети магазинов Показатель Мода (Mode) Медиана (Median) Среднее значение (Mean) Информированность о сети магазинов 6,000 4,000 3,696

Мода — это номер варианта ответа, который встречается чаще других. На графике частот этому значению соответствует самый высокий пик.

Например, на рис. 15 модой является значение 6 («очень хорошо знаю»). Таким образом, мода совсем не отражает частоты выбора других вариантов ответа. Поэтому она может служить хорошей характеристикой центральной тенденции только для номинальных признаков, поскольку для них другие характеристики центральной тенденции неприме нимы.

Медиана определяется следующим образом. Расположим респондентов, ответивших на данный вопрос, в порядке воз растания номеров вариантов ответов, которые они дали.

Если общее число респондентов, ответивших на вопрос, нечетно, найдем респондента, расположенного в середине по лученного ряда: ровно половина дала ответы с меньшим или таким же, как он, номером варианта, и ровно половина — с большим или таким же. В этом случае медиана равна номеру варианта ответа или значению ответа, который дал респондент, расположенный в середине этого ряда.

Если же общее число респондентов, ответивших на во прос, четное, найдем двух из них, расположенных в середине полученного рядаї. В этом случае медиана равна полусумме номеров вариантов ответа, данных респондентами из этой пары.

Реально для расчета медианы перенумеровывать всех отве тивших респондентов, конечно, не нужно. Достаточно выяс нить на основе распределения ответов, куда попадает средний по порядку респондент или пара средних по порядку респон дентов. Для этого нужно знать, на какой ответ приходятся 50% респондентов в столбце Cumulative Percent — процент допусти мых нарастающим итогом.

Поясним эту процедуру на примере табл. 25. Число респон дентов, ответивших на вопрос, четное (270). Судя по данным последнего столбца таблицы, 47,8% (ближайшее к 50% меньшее число) от их числа дали ответы 1, 2 или 3. Ответы же 1,2, 3 или 4 дали уже 63,7 (ближайшее к 50% большее число). Нам совершенно неважно кто персонально из 270 давших ответ респондентов будет «зачислен» в пару, о которой шла речь выше, но ясно, что оба они выбрали ответ 4. А полусумма «четверок», естественно, тоже равна «четверке», то есть медиана равна 4.

Медиана — хорошая характеристика центральной тенден ции в ответах, если замер производится на порядковой шкале, когда разница между вариантами ответов номер 1 и номер 2 может быть совсем иной, чем разница между вариантами ответов номер 2 и номер 3. Например, если бы речь шла о месте, на которое респондент поставил бы в своих предпочтениях определенный сорт конфет, то кто-то из респондентов вполне мог оказаться однолюбом, то есть любить только один сорт конфет, поставленный им на первое место; конфеты же, по ставленные им на второе, третье и т. д. места он может почти в одинаковой мере не любить и не есть и лишь по просьбе интервьюера проранжировать.

Полезна медиана в качестве дополнительной характерис тики и для интервальных и пропорциональных шкал, особен но, если в данных встречаются так называемые выбросы — ответы, резко отличающиеся от основной массы ответов. Например, если замеряется распределение доходов, то полез но знать уровень дохода среднего в ряду благосостояния респондента.

Среднее значение рассчитывается по формуле 1;п

fel

(11) п

где п — число респондентов, ответивших на вопрос, а ХІ — номер ответа, названный /-м респондентом. В рассматриваемом нами примере среднее значение (см. табл. 25) рассчитывается по формуле:

Х =

— 36x1 + 41x2 + 52x3 + 43x4 + 36x5 + 62x6 , ...

= 3,696

270

Зная его, можно понять, что средняя информированность о сети магазинов у попавших в выборку респондентов больше, чем на «три с плюсом», но меньше, чем «на четыре» по шестибалльной шкале.

Использовать среднее значение в качестве характеристики основной тенденции в ответах имеет смысл лишь при исполь зовании интервальной или пропорциональной шкалы, то есть когда различие в измеряемой величине между 1 и 2 такое же, как между 2 и 3 и т.д.

В то же время, как уже отмечалось, и для таких шкал расчет среднего значения иногда дополняется расчетом ме дианы. Так, в примере о распределении доходов среднее их значение получается, если все респонденты сложат свои доходы и поровну поделят. Ситуация достаточно фантасти ческая. Например, если окажется, что в выборку попал «оли гарх» с доходом на несколько порядков выше, чем у всех остальных респондентов, средний доход по всем опрошен ным существенно возрастет. Но вряд ли можно назвать это увеличение отражением основной тенденции в доходах пред ставителей исследуемой совокупности.

ХАРАКТЕРИСТИКИ РАЗНООБРАЗИЯ ОТВЕТОВ

Статистические характеристики разнообразия ответов рас считываются только діія данных, полученных с помощью ин-тервальных или пропорциональных шкал. Мы рассмотрим шесть статистических характеристик такого рода: размах (range), межквартильное расстояние (interquartile range), стан дартное отклонение (standard deviation), дисперсия (variance) и коэффициент вариации (coefficient of variation). Приведем ре зультаты расчета этих значений (см. табл. 27) в программном комплексе SPSS (меню Analyze Descriptive Statistics —* Frequen cies, на вкладке Statistics отметить Std. Deviation, Variance, Range и Cut points for 4 equal groups).

Табл. 27.

Статистические характеристики разнообразия ответов в информированности о сети магазинов Характеристики Значения N (число респондентов) Valid (допустимые значения) 270 Missing (отсутствующие значения) 1 Range (размах) 5 Percentiles (перцентили) 25 2,00 50 4,00 75 5,00 Std. deviation

(стандартное отклонение) 1,724 Variance (дисперсия) 2,971

Размах представляет собой разность между наибольшим и наименьшим из встретившихся в выборке респондентов зна чениями измеряемого показателя и рассчитывается по фор муле:

range = max (X,)- min (X,) /10)

/=1.2... .я і=1.2 п У1-*'J

В рассматриваемом нами примере размах равен 6-1=5.

Из приведенного определения размаха очевидно, что эта характеристика очень чувствительна к значениям, резко отли-чающимся от основной массы. Например, если одно из 62-х значений показателя, равных 6, по ошибке или по другой причине заменено на 12, размах увеличится более чем вдвое и будет равен 11. Поэтому наряду с размахом рассматривается менее чувствительный в данном отношении показатель — меж квартильное расстояние. Чтобы определить это понятие, вве дем сначала понятие перцентиля.

Вновь, как при определении понятия медианы, расположим респондентов в порядке возрастания номеров или значений на-званных ими ответов. Отсчитаем в этом ряду А процентов рес-пондентов, начиная с тех, кто дал наименьшие ответы. Номер или значение ответа последнего отсчитанного нами респондента на-зывается перцентилем А. Очевидно, что при А=50% мы получим уже знакомую нам медиану. Перцентиль при А=25% принято называть первым квартилем (так как он отсекает от выборки первую четверть — кварту), перцентиль при А=50% — не только медианой, но еще и вторым квартилем, перцентиль при А=75% — третьим квартилем. В нашем примере (см. табл. 27) первый, второй и третий квартили равны соответственно 2, 4 и 5.

Межквартильным расстоянием называется разность между третьим и первым квартилями распределения ответов. В рассмат риваемом нами примере эта характеристика равна 5-2—3.

В программном пакете SPSS показатели размаха, квартилей и межквартильного расстояния удобно визуализированы так называемой коробчатой диаграммой (меню Graphs —» Boxplot), которая приведена на рис. 16. На этой диаграмме вертикальный отрезок, ограниченный сверху и снизу отрезками линий, соот ветствует размаху распределения, прямоугольник в средней части отрезка — межквартильному расстоянию, а горизонталь ная линия внутои поямоугольника — медиане.

При построении коробчатой диаграммы предполагается', что выбросы — значения переменной, отстоящие от верхней или нижней границы прямоугольника на полторы его высоты или более, являются ошибочными. При расчете размаха они во внимание не принимаются. Выбросы, отклоняющиеся от фаниц прямоугольника на величину от полутора до трех его высот (outliers), изображаются на этой диаграмме кружком, а откло-няющиеся еще больше (extreme cases) — звездочкой. Каждый выброс маркируется на графике номером соответствующей строки матрицы данных. Так, на рис. 17 видно, что у респон дента №9 встретился выброс, равный 12-ти (outlier), а у респон дента №8 — 18-ти (extreme case).

20-

Мы видим, что при расчете размаха и межквартильного расстояния не в полной мере учитывается распределение всего набора ответов. В этом смысле более интегральными характе ристиками распределения ответов являются стандартное откло нение и дисперсия (variance), так как при их расчете учитыва ется расположение каждого ответа.

Пусть содержащаяся в столбце матрицы данных переменная X содержит ответы на вопрос с интервальной или пропорцио нальной шкалой. Стандартное отклонение (standard deviation) этой переменной представляет собой корень квадратный из среднего квадрата отклонений ее значений от среднего значе ния этой величины, определенного не по выборке, а по всей исследуемой совокупности. Соответственно, определение стан дартного отклонения выглядит так:

(13)

где N — число элементов исследуемой совокупности. На практике расчет по приведенной выше формуле 13 невозможен, так как неизвестны значения переменной X для

всех элементов исследуемой совокупности. Поэтому использу ется оценка стандартного отклонения, рассчитываемая по сле дующей формуле:

(И)

где п — число элементов в выборке.

Деление на (п-1), а не на п, позволяет учесть, что расчет ведется не по элементам всей исследуемой совокупности, а по выборке. В частности, вместо неизвестного нам истинного среднего значения величины тх используется его оценка — выборочное среднее X. Из-за этого создается иллюзия несколь ко меньшей, чем на самом деле, изменчивости изучаемой переменной. Уменьшение знаменателя на единицу несколько увеличивает оценку стандартного отклонения и придает ей свойство несмещенности .

Дисперсия и оценка дисперсии величины X представляют собой подкоренные выражения в приведенных выше формулах 13 и 14 соответственно. Как видно из таблицы 27, в нашем примере выборочная оценка стандартного отклонения равна 1,724. Значит, уровень информированности респондентов о сети магазинов, как правило, отклоняется от средней инфор мированности (3,696) на 1,724.

Коэффициент вариации — это отношение стандартного отклонения измеряемого показателя к его среднему значе нию:

(15)

CV =

Если показатель измерен по пропорциональной шкале, ко эффициент вариации позволяет судить об относительной, не зависящей от единиц измерения, его изменчивости. В рассмат риваемом нами примере расчет коэффициента вариации невоз можен, так как шкала не пропорциональная, а интервальная, то есть естественный нуль шкалы отсутствует.

ХАРАКТЕРИСТИКИ ФОРМЫ РАСПРЕДЕЛЕНИЯ

Характеристиками формы распределения значений измеря емого показателя являются асимметрия (skewness) и эксцесс (kurtosis). Они позволяют судить о том, в какой степени распределение по форме похоже на классический симмет-ричный относительно центра распределения «колоколь чик» нормального распределения, у которого среднее зна чение, медиана и мода совпадают. (Расчет этих характеристик можно выполнить в меню Analyze —» Descrip tive Statistics —> Descriptives).

Если асимметрия распределения показателя положительна, то он отклоняется от своего среднего значения в правую сторону на несколько большие расстояния, чем в левую (пра вый «хвост распределения» длиннее левого). А если асимметрия отрицательна, то наоборот.

В рассматриваемом нами примере асимметрия составляет небольшую отрицательную величину (-0,062). На рис. 18 замет но, что значения влево от среднего (3,696) распределены на несколько большем расстоянии, чем вправо .

Эксцесс позволяет судить о степени крутизны или пологости распределения. Для нормального распределения эксцесс равен нулю. Если распределение круче нормального (верхушка его острее, наблюдения в большей степени концентрируются около нее, но и «хвосты» распределения длиннее, чем у нормального распределения), то эксцесс положителен; в противном слу чае — он отрицателен.

В рассматриваемом нами примере эксцесс отрицателен (-1,265), то есть наше распределение более пологое, чем «колокольчик» нормального распределения.

Свойства формы распределения рассматриваемого нами по казателя информированности о сети магазинов в сравнении с кривой нормального распределения с таким же средним значе нием и стандартным отклонением хорошо видны на его гисто грамме (меню Graphs —> Histogram), представленной на рис. 18. На ней показано число респондентов, назвавших каждый из от 1 до 6 ответов.

70'

SW, 0*ч . 1.73 Исак ¦ 3.7

N - 370.00

1,0 3.0 3.0 4,0 9,0 0.0

Рис. 18. Гистограмма распределения информированности о сети магазинов

Мы видим, что левый «хвост» распределения действительно несколько длиннее правого и распределение в меньшей степе ни, чем соответствующее нормальное, сконцентрировано в центре. Заметим, что обе эти особенности вызваны наличием относительно высокого столбца распределения в точке 6.

ОБЩИЕ ПРИНЦИПЫ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ И ГИПОТЕЗЫ, ПРОВЕРЯЕМЫЕ НА ОСНОВЕ ЧАСТОТНОГО РАСПРЕДЕЛЕНИЯ ОТВЕТОВ

Идея, лежащая в основе проверки маркетинговых гипотез

В ходе маркетинговых исследований проверяется много гипотез и некоторые из них — с помощью частотных распре делений. Рассмотрим следующий пример. Пусть фирма, про изводящая гидравлическое оборудование, разработала новый план его обслуживания и решила внедрить его лишь в том случае, если он вызовет одобрение более чем 40% потребителей.

На этом примере поясним идею проверки маркетинговых гипотез такого рода. Она аналогична общим принципам про-верки гипотез. Предположим, фирма провела выборочный опрос потребителей, рассчитала частотное распределение отве тов на интересующий ее вопрос и выяснила, что доля опрошен ных, одобривших план (р) превысила 40% (р>0,4).

В то же время были опрошены не все, а лишь попавшие в выборку потребители. Не исключено, что, опроси фирма всех, доля одобривших план (я) оказалась бы не выше 40% (я < 0,4), то есть, что обнаруженное при опросе превышение этого поро га — просто случайность.

Если проверка покажет, что выявленная в ходе опроса доля одобривших новый план превышает 40% настолько, что слу чайное совпадение такого рода практически невозможно, можно сделать заключение: новый маркетинговый план дейст вительно одобрят более 40% потребителей.

Нулевая и альтернативная гипотезы

Введем определения. Гипотеза о том, что ситуация на самом деле не такова, какой она кажется по результатам выборочного опроса, называется нулевой и обозначается Но. Противополож ная, устраивающая нас гипотеза называется альтернативной и обозначается Hj. Если по данным опроса нулевая гипотеза должна быть отвергнута, это позволяет сделать вывод, что данные опроса не противоречат альтернативной.

Важно подчеркнуть, что теория проверки статистических гипотез не располагает средствами, которые позволили бы утверждать, что интересующая нас альтернативная гипотеза Я; бесспорно соответствует действительности. Нельзя полностью исключить, что это не так, но вероятность этого события столь мала, что на практике его можно считать невозможным.

Односторонние и двухсторонние тесты

Существует два типа статистических тестов для проверки гипотез: односторонние и двухсторонние. В описанной выше ситуации нулевая и альтернативная гипотезы выражаются не равенствами:

Но¦' я < 0,4 — нулевая гипотеза,

Hj: я > 0,4 — альтернативная гипотеза.

Для проверки таких гипотез, когда исследователя интересует отклонение замеряемой характеристики от порога в какую- либо определенную сторону, используется так называемые односторонние статистические тесты (one-tailed tests). Но бывают и иные ситуации. Модифицируем пример. Пред-положим, точно известно, что к применяемому фирмой в настоящее время плану обслуживания одобрительно относятся 40% потребителей. Фирма просто хочет знать, различаются ли отношения к старому и новому сервисным планам, то есть отличается ли доля тех, кто одобряет новый план, от 40%. В такой ситуации нулевая гипотеза выражаются равенством, а альтернативная — отрицанием этого равенства:

Н0: п- 0,4 — нулевая гипотеза,

Н]: л Ф 0,4 — альтернативная гипотеза.

Для проверки таких гипотез, когда исследователя интересует отклонение замеряемой характеристики от порога (неважно, в какую сторону — большую или меньшую), используются так называемые двухсторонние статистические тесты (two-tailed tests).

Следует отметить, однако, что в маркетинговых исследова ниях двухсторонние тесты используются достаточно редко, так как почти всегда существует определенное предпочтительное направление различий.

Выбор тестовой статистики

После того, как нулевая и альтернативная гипотезы сфор мулированы, нужно выбрать тестовую статистику, то есть такую случайную величину, которая удовлетворяет трем требованиям.

Во-первых, по данным опроса можно рассчитать число, являющееся значением (как принято говорить в статистике, реализацией) этой случайной величины на выборке, по которой был проведен опрос.

Во-вторых, значения случайной величины должны рассчи тываться в предположении, что нулевая гипотеза верна.

В-третьих, распределение случайной величины должно быть стандартным, известным априори. Должны существовать таб лицы и (или) компьютерные программы, позволяющие для каждого значения случайной величины указать вероятность случайного возникновения такого же и всех больших значений, или такого же и всех меньших значений. К числу таких исполь зуемых в маркетинге распределений ОТНОСЯТСЯ: стандартизо ванное нормальное распределение (z), стандартизованное рас пределение Стьюдента (t) и стандартизованное распределение хи-квадрат (%2). В данном разделе мы ограничимся случаем, когда можно использовать стандартизованное нормальное рас пределение.

Вернемся к задаче одобрения потребителями новой про граммы сервисного обслуживания оборудования. Статистика для нормального распределения в этой задаче рассчитывается по формуле:

(16)

где:

р — доля опрошенных представителей исследуемой сово купности, одобривших новую сервисную программу;

я — доля представителей исследуемой совокупности, которые одобрили бы эту программу от числа всех ее представителей;

стр — стандартное отклонение случайной величины, пред ставляющей собой случайную погрешность опроса (стандарт ная ошибка опроса).

Стандартная ошибка опроса рассчитывается по формуле:

(17)

где п — размер выоорки.

Выбор уровня значимости

Поскольку мы пытаемся сделать заключение о свойстве всей исследуемой совокупности на основе опроса выборки респон дентов, мы можем совершить ошибку. Эта ошибка может быть двоякого рода.

Ошибка первого рода возникает, когда мы по имеющимся у нас выборочным данным отвергаем нулевую гипотезу, тогда как на самом деле она верна. Например, на основе выборочного опроса мы можем прийти к выводу, что новый сервисный план будет одобрен более чем 40% респондентов, а в действитель ности эта доля среди всех пользователей не выше этого порога. Вероятность совершить ошибку первого рода а по-другому называется уровнем значимости (level of significance). Эту веро-ятность выбирают, исходя из величины потерь в случае ошибки данного типа (цены ошибки).

Ошибка второго рода возникает, когда мы, напротив, не отвергаем по нашим выборочным данным нулевую гипотезу, тогда как она не соответствует действительности. Так, мы можем посчитать, что доля опрошенных, одобривших новый план, столь незначительно превышает 40% и число опрошен ных столь невелико, что среди всех пользователей эта доля может и не превышать данного порога. Ошибка второго рода возникает, когда на самом деле это оказывается не так. Веро ятность совершить ошибку второго рода принято обозначать (3. В то время как выбор а определяется исследователем, величина

Р, напротив, целиком зависит от неизвестной исследователю величины: истинного значения маркетингового показателя, оцениваемого с помощью опроса. В рассматриваемом нами случае, чтобы определить (3, нужно знать истинную долю тех потребителей, которые одобрили бы новый план, от числа всех потребителей.

Величина 1—(3 называется мощностью статистического кри терия {power of statistical test). Это вероятность того, что нулевая гипотеза будет отвергнута в ситуации, когда она и должна быть отвергнута, так как не соответствует действительности.

Хотя мощность статистического критерия исследователю неизвестна, она зависит от выбранного им уровня значимости а. Например, последовательно уменьшая а, исследователь вы нужден все сильнее перестраховываться, все выше над порогом 40% поднимать «планку», превышение которой позволяет ему сделать вывод о достаточно большой доле тех, кто одобрит новый план. Но при этом повышается и вероятность Р того, что новый план будет незаслуженно отвергнут, поскольку вы борочная доля положительных отзывов не дойдет до слишком высоко поднятой планки, тогда как истинная доля тех, кому бы новый план понравился, будь он реализован, превышает 40%. Таким образом, уменьшая а, исследователь всегда умень шает, хотя и не зная с какой и до какой величины, мощность статистического критерия 1-р.

Таким образом, проверяя гипотезу, исследователь находится «между Сциллой и Харибдой» ошибок первого и второго рода. Чаще всего в качестве компромисса между ними избирают доверительную вероятность а=0,05, существенно реже: а=0,01, а более низкие значения — почти никогда .

Будем считать, что в нашем сквозном примере мы выбрали доверительную вероятность 0,05.

Сбор данных для проверки гипотезы

Выбрав уровень доверительной вероятности с учетом его влияния на мощность статистического критерия, а также дру гих, в частности, бюджетных ограничений, собирается необхо-димое количество данных и рассчитывается значение статисти ческого критерия. Далее допустим, что мы опросили 500 потре бителей, 220 из которых одобрили новый сервисный план. Тогда имеем:

р=220/500=0,44; (18)

СГР =ч/ ' 'СЛ; =0,0219 (19)

0,4(1-0,4) 500

zJJ4-0A0 = 0,0219

Сравнение эмпирической вероятности с критическим значением и заключения относительно гипотезы

На рис. 19 показано, как в нашем примере с помощью функции нормального распределения оценить вероятность выполнения нулевой гипотезы (условия л<0,4), если в ре зультате опроса оказалось, что р=0,44. По таблицам нормаль ного распределения или, например, в приложении Microsoft Excel с помощью функции NORMDIST(1.83,0,1, TRUE )1, можно установить следующее: вероятность того, что случай ная величина со стандартизованным нормальным распреде лением превышает выявленное в ходе опроса значение z~l,83, равна 1 - 0,9664=0,0336.

Действительно, на рис. 19 площадь под колоколообразной кривой плотности нормального распределения, как обычно, равна единице. Площадь области 1, ограниченной жирной линией, равна 0,9664, а площадь области 2, выходящей за ее пределы, равна 0,0336. Именно этому небольшому числу равна вероятность события z ^ 1,83. Учитывая способ постро ения стандартизованной случайной величины z, это означает: такую вероятность имеет событие, состоящее в том, что ис тинная доля одобряющих на всей исследуемой совокупности меньше 40% (л <0,40), когда в ходе опроса выявлена доля одобряющих 44% (р=0,44) . Но именно в этом и состоит наша нулевая гипотеза.

Вспомним, что мы избрали в нашем примере доверительную вероятность 0,05. Эмпирическая вероятность оказалась мень-ше: 0,0336. Следовательно, на избранном нами уровне значи мости нулевую гипотезу следует отвергнуть, то есть признать, что полученные в ходе опроса данные не противоречат альтер нативной гипотезе: новую сервисную программу одобрили бы более 40% всех пользователей, а не только опрошенных нами.

Заметим, что можно было поступить иначе: до опроса наме тить планку, начиная с которой отвергается нулевая гипотеза, — такую долю одобряющих сервисную программу респондентов, что в случае регистрации в ходе опроса более высокой доли нулевая гипотеза должна быть отвергнута. По таблицам обрат ного нормального распределения или с помощью функции Microsoft Excel NORMINV(0.95,0,определим, что в стандарти зованном нормальном распределении такая вероятность соот-ветствует числу 1,645. При нестандартизованном нормальном распределении со средним значением 0,4 и стандартным откло нением 0,0219 этому соответствует поднятие планки над поро говым значением 0,4 на величину 0,4+0,0219*1,6450=0,436. Это означает, что нулевая гипотеза должна отвергаться, если в ходе опроса план одобрят более 43,6% респондентов. Ту же мысль можно выразить так: полученная в ходе опроса доля одобряю щих новый план, равная или большая 43,6%, статистически значимо превышает 40%.

р-0.40 (z-0)

Рис. 19. Проверка гипотезы с помощью стандартизованного нормального распределения

Область 2 площадь » 0,0336

р-0,44

Наши рассуждения касались одностороннего статистического критерия (см. с. 350) и задачи, когда нас интересуют отклонения от порогового значения только в одну сторону. Если же гипотеза состоит в отклонении частоты от фиксированного значения, неважно в какую сторону, то величину доверительной вероят ности следует сравнивать с площадью не под одним «хвостом» распределения, как показано на рис. 19, а под двумя (правым и левым) «хвостами» распределения. Поэтому доверительную ве роятность (в нашем примере 0,05) следует разделить на 2, то есть сравнивать площадь под каждым «хвостом» распределения не с числом 0,05, а с числом 0,025. С помощью таблиц или функции обратного нормального распределения легко установить, что такая вероятность соответствует значению стандартизованной нормально распределенной случайной величины, равному 1,960.

Умножив это число на стандартное отклонение 0,0219, легко установить, что нулевая гипотеза о том, что доли предпочита ющих новый и старый планы на самом деле совпадают, должна отвергаться, если полученная в результате опроса доля одобря ющих новый план выйдет за пределы интервала: 0,4±0,0219*1,960=0,4±0,0429.

Приведенный пример, в частности, хорошо иллюстрирует тот факт, что односторонние критерии при фиксированной доверительной вероятности всегда мощнее (см. с. 350), чем соответствующие двухсторонние. Так, полученный в ходе опроса результат (44%) оказался достаточным, чтобы отверг нуть нулевую гипотезу в случае одностороннего критерия, и недостаточным — для двухстороннего. Следовательно, во вто ром случае шансы, что искомое маркетинговое решение не будет принято из-за совершения исследователем ошибки вто рого рода, повышаются. А с повышением вероятности ошиб ки второго рода снижается мощность статистического крите рия.

<< | >>
Источник: Галицкий Е.Б.. Методы маркетинговых исследований. 2004

Еще по теме 12.1. ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ:

  1. Распределение затрат по местам и центрам формирования. Способы распределения затрат
  2. Распределение затрат по местам и центрам формирования Способы распределения затрат
  3. 6.5. Распределение прибыли
  4. Распределение прибыли.
  5. 1.4. Распределение прибыли
  6. 22.2.1. Распределение риска
  7. УПРАВЛЕНИЕ КАНАЛАМИ РАСПРЕДЕЛЕНИЯ
  8. КАНАЛЫ РАСПРЕДЕЛЕНИЯ
  9. Распределение общепроизводственных расходов
  10. 11.2. метод распределения прибыли
  11. 16. 4. РАСПРЕДЕЛЕНИЕ ПРИБЫЛИ
  12. 3.2. Система распределения и товародвижение
  13. 5.3. Распределение и использование прибыли