<<
>>

12.2. КРОСС-ТАБУЛЯЦИЯ

ПРИНЦИП ФОРМИРОВАНИЯ ТАБЛИЦ КРОСС-ТАБУЛЯЦИИ
В маркетинговых исследованиях часто возникают вопросы о зависимости между ответами на разные вопросы. Например, исследователя может интересовать, зависит ли степень инфор мированности жителей района о находящемся в районе мага зине от времени их проживания в этом районе.
Для ответа на вопросы такого рода применяются таблицы кросс-табуляции, иначе называемые матрицами сопряженности. Они показыва ют совместное распределение ответов респондентов на два и более вопроса анкеты, по каждому из которых существует лишь ограниченное число категорий.
В одном из проведенных Н. Малхотрой (Malhotra, 1996, р. 516) исследований на основе степени информированности жителей о каждом из десяти магазинов района был выведен интегральный показатель информированности каждого респондента о район ных магазинах вообще. После этого все респонденты были разбиты по медиане распределения интегрального индикатора на две равные группы — хорошо и плохо знакомые с магазинами района. Кроме того, те же респонденты были разбиты на три группы в зависимости от продолжительности проживания в районе: до 13 лет, от 13 до 30 лет и более 30 лет.
В результате была получена следующая таблица кросс-табу ляции (табл. 28).
Табл. 28.
Распределение респондентов в зависимости от степени знакомства с магазинами и продолжительности проживания в районе, чел. Знакомы с магазинами: Продолжительность проживания в районе Всего до 13 лет от 13 до 30 лет более 30 лет плохо 45 34 55 134 хорошо 52 53 27 132 Всего 97 87 82 266
Каждая клетка таблицы содержит число респондентов, об ладающих определенным сочетанием рассматриваемых при знаков. Например, 45 респондентов живут в районе менее 13 лет и плохо знакомы с магазинами.
После знакомства с приведенными в таблице 28 числами складывается впечатление, что степень знакомства с магазина ми у лиц, проживавших в районе разное время, действительно различна. Для наглядности рассчитаем доли знакомых с мага зинами среди лиц с той или иной продолжительностью прожи вания (табл. 29).
Табл. 29.
Доли знакомых с магазинами среди лиц с той или иной продолжительностью проживания в районе, % по столбцу Знакомы с магазинами: Продолжительность проживания в районе Все опрошенные до 13 лет от 13 до 30 лет более 30 лет плохо 46,4 39,1 67,1 50,4 хорошо 53,6 60,9 32,9 49,6 Всего 100,0 100,0 100,0 100,0
Таблица демонстрирует, что сначала при увеличении про должительности проживания в районе степень информирован ности о магазинах растет (60,9% против 49,6% в целом по выборке), а затем — падает (32,9%). Последнее, вероятно, объясняется снижением мобильности жителей района с трид-цатилетним (и более долгим) «стажем» проживания.
Заметим, что с формальной точки зрения можно было бы поступить иначе: рассчитать процент не по столбцу, а по строке. Но тогда вывод из анализа таблицы был бы очень странным: с ростом степени знакомства с магазинами растет склонность людей к тому, чтобы долго жить в одном и том же районе. Бессмысленность этого вывода — результат того, что мы необо снованно поменяли местами независимую и зависимую пере менные. На самом деле в качестве независимой переменной здесь может рассматриваться только продолжительность прожи вания, а знакомство с магазинами — зависимая переменная, так как она меняется под воздействием независимой.
Правило же анализа таблиц кросс-табуляции гласит: рассчитывать следует распределение значений зависимой переменной при каждом значении независимой. Тогда появляется возможность сравни вать между собой распределения по категориям зависимой пере менной при прочих равных условиях.
УВЕЛИЧЕНИЕ ЧИСЛА НЕЗАВИСИМЫХ ПЕРЕМЕННЫХ ПРИ ПОСТРОЕНИИ ТАБЛИЦ КРОСС-ТАБУЛЯЦИИ
Таблицы кросс-табуляции можно строить, фиксируя значе ния нескольких независимых переменных. При этом возможны четыре ситуации (Malhotra, 1996, р. 517).
Во-первых, иногда добавление еще одной независимой пере менной проясняет механизм действия выявленной ранее зависимости. Так, например, рассчитав таблицу кросс-табуляции между семейным положением (независимая переменная) и уровнем приобретения модной одежды (табл. 30), можно поду мать, что многие мужчины и женщины после замужества или женитьбы теряют интерес к покупке модной одежды.
Табл. 30.
Распределение лиц с разным семейным положением по количеству приобретаемой ими модной одежды,
% по столбцу Приобретают модную одежду Семейное положение Все опрошенные Женат (замужем) Неженат (не замужем) Много 31 52 37 Мало 69 48 63 Всего 100 (700)* 100 (300) 100 (1000) * (К табл. 30-35). В скобках — число респондентов.
Однако включение в анализ еще одной независимой пере менной — пола респондента (табл. 31), — показывает, что такая закономерность проявляется лишь у женщин, причем она выражена более резко, чем у респондентов в целом.
Табл. 31.
Распределение лиц разного пола и с разным семейным положением по количеству приобретаемой ими модной одежды,
% по столбцу Приобретают Пол Все модной Мужчины Женщины опрошенные одежды Семейное положение женат не женат замужем не замужем Много 35 40 25 60 37 Мало 65 60 75 40 63 Всего 100 100 100 100 100 (400) (120) (300) (180) (1000)
Во-вторых, иногда оказывается, что ранее наблюдавшаяся зависимость была иллюзорной, так называемой ложной корре ляцией; что на самом деле существует другой фактор, вариацией которого и объяснялись наблюдавшиеся эффекты. Так, просмотр табл. 32 создает впечатление, что люди с более высоким образо ванием чаще приобретают дорогие марки автомобилей.
Табл. 32.
Наличие автомобиля дорогой марки у лиц с разным
образованием, % по столбцу Наличие дорогого Образование Все автомобиля Высшее Не высшее опрошенные Есть 32 21 24 Нет 68 79 76 Всего 100 100 100 (250) (750) (1000)
Однако включение в анализ еще одной независимой пере менной — дохода респондента (табл. 33), показывает, что об разование само по себе не влияет на вероятность приобретения дорогого автомобиля; истинной причиной наблюдавшихся раз личий является уровень дохода, который у лиц с высшим образованием, как правило, выше.
Табл. 33.
Наличие автомобиля дорогой марки у лиц с разным доходом
и образованием, % по столбцу Наличие Доход Все дорогого Низкий Высокий опрошенные автомобиля Образование Высшее Не высшее Высшее Не высшее Большое 20 20 40 40 24 Малое 80 80 60 60 76 Всего 100 100 100 100 100 (100) (700) <15°) .. (50) (1000)
В-третьих, иногда добавление еще одной или нескольких независимых переменных позволяет выявить ранее скрытую зависимость. Например, попытка выявить предполагавшуюся связь между возрастом и заинтересованностью в путешествиях за границу окончилась неудачей (табл. 34).
Табл. 34.
Заинтересованность в заграничном туризме у лиц разного
возраста, % по столбцу Заинтересованность Возраст Все в заграничном туризме до 45 лет 45 лет и старше опрошенные Заинтересованы 50 50 50 Не заинтересованы 50 50 50 Всего 100 100 100 - (500) (500) (1000)
Разделив же респондентов еще и по полу (табл. 35), иссле дователи обнаружили искомую зависимость, которая у мужчин и женщин оказалась разнонаправленной.
Табл. 35.
Заинтересованность в заграничном туризме у лиц разного
пола и возраста, % по столбцу Наличие дорогого автомобиля Пол Все опрошенные Мужчины Женщины Воз раст до 45 лет 45 лет и старше до 45 лет 45 лет и старше большое 60 40 35 65 50 малое 40 60 65 35 50 Всего 100 (300) 100 (300) 100 (200) 100 (200) 100 (1000)
Наконец, в-четвертых, не исключено, что включение в анализ независимых переменных ничего не меняет в отноше нии ранее выявленной или, наоборот, не выявленной парной закономерности.
В целом же, увеличение числа независимых переменных при построении таблиц кросс-табуляции бывает полезным. Но не следует этим злоупотреблять. Нельзя допускать формирования при анализе настолько малых групп по строкам и по столбцам, чтобы нарушалось условие:
fe < 5, (21)
где fe — ожидаемое число респондентов в клетке таблицы кросс- табуляции в предположении независимости ее строк и столбцов;
Формула 22 для расчета величины fe будет приведена в следующем разделе.
ПРОВЕРКА ГИПОТЕЗ, СВЯЗАННЫХ С КРОСС-ТАБУЛЯЦИЕЙ
Проверка гипотезы о существовании связи
При анализе таблиц кросс-табуляции постоянно возникают вопросы о том, достаточно ли обнаруженных различий в рас-пределении ответов в разных столбцах таблицы, чтобы сделать вывод о существовании статистически значимой связи. Имеет ся ряд статистических критериев, позволяющих дать ответ на данный вопрос и другие аналогичные вопросы.
Основная идея, лежащая в основе этих критериев, — срав нить f0 — фактическое число респондентов, отнесенных к каж дой клетке таблицы, с fe — ожидаемым числом таких респон дентов в предположении независимости строк и столбцов таблицы.
Формула для расчета ожидаемого числа респондентов в клетке таблицы имеет вид:
Где пг — число респондентов во всех клетках данной строки таблицы кросс-табуляции;
пс — число респондентов во всех клетках данного столбца таблицы кросс-табуляции;
п — число респондентов во всех клетках таблицы кросс-та буляции.
Смысл приведенной выше формулы (22) достаточно прост. Примем в качестве нулевой гипотезы, что вопрос, ответы на который расположены по столбцам таблицы, и вопрос, ответы на которые образуют строки таблицы, в действительности независимы. Это означало бы, что если бы мы опросили не выборку респондентов, а всех представителей исследуемой совокупности, распределение ответов в каждом столбце было бы одинаковым и, следовательно, таким же, как распределение ответов на этот вопрос среди всех опрошенных.
Тогда долю наблюдений, приходящихся на каждую клетку таблицы, можно было бы подсчитать, перемножив долю пред ставителей исследуемой совокупности, приходящуюся на стол-
Все сказанное здесь и далее при обсуждении статистических критериев, связанных с таблицами кросс-табуляции, не относится к итоговым строке и столбцу.
бец, и их долю, приходящуюся на строку таблицы. Выбороч ными оценками этих долей служат дроби пг/п и пс/п. Умножив полученное произведение на размер выборки п, мы получаем искомое число респондентов, которые относились бы к клетке таблицы в случае, если бы нулевая гипотеза была верна и случайные колебания, связанные с конкретной выборкой, от сутствовали.
Наиболее часто используемый статистический критерий для проверки описанной выше нулевой гипотезы — критерий хи- квадрат. Он рассчитывается по формуле:
*' = Z Ру^Т /*= Е ^т^ <23>
все _клетки\ Je J все _кпетки J е
Смысл этого критерия таков. Он представляет собой взве-шенную сумму квадратов относительных различий между фак тической и ожидаемой наполненностью каждой клетки табли цы. Весовые коэффициенты представляют собой ожидаемую наполненность клеток таблицы. В сумме они составляют не единицу, как обычно, а общее число респондентов п.
Отметим, что величину (f0-fe) принято называть остатками (residuals), а величину:
if -f)
— стандартизованными остатками (standardizedresiduals).
V/.
Поэтому можно также сказать, что критерий хи-квадрат пред ставляет собой сумму квадратов стандартизованных остатков.
Зная стандартизованный остаток, можно судить о значимос ти различий между ожидаемым и фактическим числом респон дентов, отнесенных к данной клетке таблицы. Предположим, что в клетке оказалось больше респондентов, чем ожидалось. Если при этом стандартизованный остаток превысил 1,96, то вероятность, что превышение в числе респондентов случайно, составляет 0,025; а если он составил 2,6, эта вероятность равна 0,0051.
Заметим, что иногда используется другая формула для рас чета нормированных остатков. Результаты расчета по ней при нято называть уточненными нормированными остатками (ad justed standardized residuals):
if о ft) (24)
яэд
Проиллюстрируем с помощью таблиц 36 и 37 расчет коэф фициента у} на данных таблицы 28 (см. с. 357).
Табл. 36.
Расчет ожидаемого числа респондентов в клетках таблицы кросс-табуляции для проверки значимости связи между знакомством жителей с районными магазинами и продолжительностью их проживания в районе Знакомство с магазинами Продолжительность проживания в районе до 13 лет от 13 до 30 лет более 30 лет незнакомы /< =
266*0,3647*0,5038= 48,87 /< =
266*0,3271*0,5038= 43,83 /* =
266*0,3083*0,5038= 41,32 Пг/П =
134/266= =0,5038 знакомы /е=
266*0,3647*0,4962= 48,14 266*0,3271*0,4962= 43,17 fe =
266*0,3083*0,4962= 40,69 Пг/п =
132/266= =0,4962 Пс/П =
97/266=0,3647 пс/п = 87/266=0,3271 пс/п = 82/266=0,3083
Табл. 37.
Расчет коэффициента у} для проверки значимости связи между знакомством жителей с районными магазинами и продолжительностью их проживания в районе Знакомство с магазинами Продолжительность проживания в районе до 13 лет от 13 до 30 лет более 30 лет Незнакомы (fo-fe)2/fe =
(45-48,87) /48,87= 0,306 (fo-U)2/fe =
(34-43,83) /43,83= 2,204 (fo-fe)2/fe =
(55-41,32) /41,32= 4,537 Знакомы (fo-fe)2/fe =
(52-48,14//48,14= 0,310 (fo-fe)2/fe =
(53-43,17) /43,17= 2,238 (fo-fe)2/fe =
(27-40,69)"/40,69= 4,606 X2 = 0,306+2,204+4,537+0,310+2,238+4,606=14,201
Распределение у}, как и нормальное распределение (см. рис. 19 на с. 355), табулировано. Форму распределения у} иллюстрирует рис. 20 на с. 366. Существует целое семейство кривых с разным числом степеней свободы (df). Чем оно больше, тем симметричнее кривая. В пределе это распределе ние стремится к нормальному. Для таблиц кросс-табуляции число степеней свободы рассчитывается по формуле: df = (r-l)x(c-l), где г и с число строк и число столбцов таблицы соответственно.
В данном случае таблица содержит две строки и три столбца, то есть распределение характеризуется двумя степенями свободы.
Аналогично тому, как использовалось кривая стандартизован ного нормального распределения (см. рис. 19 на с. 355), здесь по таблицам с помощью пакета SPSS (меню Analyze —> Descriptive Statistics Crosstabs) или функции CHIDIST(14.201,2)1 Microsoft Excel можно обнаружить, что вероятность случайного появления числа, равного или большего 14,201, равна 0,000825. Это суще ственно меньше избранного нами порога 0,05, соответствую щего доверительной вероятности 0,95. Следовательно, нулевая гипотеза об отсутствии связи между уровнем знакомства жите лей с районными магазинами и продолжительностью их про-живания в районе должна быть отвергнута. А значит, данные опроса не противоречат альтернативной гипотезе о наличии данной связи.
Проверять гипотезы о связи вопросов по критерию X можно, если ни в одной клетке ожидаемое число респондентов fe не меньше пяти. Более того, если есть клетки, где это число меньше 10, оценки становятся очень грубыми.
Меры силы связи
Зная хи-квадрат, можно не только проверить гипотезу о наличии связи между включенными в таблицу кросс-табуляции вопросами анкеты, но и ответить на вопрос, насколько эта связь сильна.

Так, для таблиц из двух строк и двух столбцов удобен коэффициент Фишера (phi coefficient):
(25)
Если статистической связи между вопросами нет, этот ко эффициент равен нулю, а при наибольшей зависимости (если, зная ответ респондента на один из вопросов, можно однознач но сказать, как он ответил на другой) — единице.

Рис. 20. Проверка гипотезы с помощью распределения хи-квадрат
Для таблиц с произвольным числом строк и столбцов ис пользуется коэффициент сопряженности признаков Пирсона (contingency coefficient):
(26)
При отсутствии связи этот коэффициент тоже равен нулю. А вот единицы он не достигает ни при каких обстоятельствах. Поэтому сравнивать между собой силу разных связей он позво ляет лишь для таблиц, у которых одинаковое число строк и столбцов.
Существуют и другие меры связи между вопросами анкеты, обсуждать которые мы не будем, так как они используются значительно реже.
Таким образом, работу с таблицами кросс-табуляции в мар-кетинговых исследованиях можно представить в виде последо вательности, состоящей из трех шагов:
проверить с помощью критерия хи-квадрат, что данные не противоречат существованию связи между вопросами (т.е. что нулевая гипотеза об отсутствии связи между вопросами при выбранной доверительной вероятности отвергается);

оценить силу связи с помощью коэффициента Фишера, коэффициента сопряженности признаков Пирсона и др.;
если связь оказалась статистически значимой и достаточ но сильной, проинтерпретировать ее, рассчитав процентное распределение ответов на вопрос, являющийся зависимой переменной (Y) при каждом значении независимой переменной (X).
Проверка гипотез о различиях между долями респондентов
Независимые выборки
Часто исследователю приходится решать следующую про блему. Предположим, все опрошенные подразделяются на две подгруппы. Это могут быть представители двух независимо построенных выборок, например, выборки из жителей Москвы и Санкт-Петербурга, а могут — лица, различия между которы ми выявились в ходе анкетирования представителей одной и той же выборки респондентов, например, те, у кого есть, и те, у кого нет высшего образования. Исследователь должен выяс нить, одинаково или по-разному распределились ответы пред ставителей этих двух подгрупп на какой-либо определенный вопрос анкеты.
Пусть, например, нас интересует, различаются ли доли тех, кто носит джинсы, в Москве и Санкт-Петербурге. Пусть в каждом из этих городов были построены репрезентативные выборки и проведены опросы. Предположим, были получены следующие результаты (табл. 38).
Табл. 38.
Респонденты, которые носят и не носят джинсы по данным опросов лиц в возрасте до 35 лет в Москве и Санкт-Петербурге, чел. (данные условны) Пользование джинсами Город Всего Москва Санкт-Петербург Носят 160 120 280 Не носят 40 80 120 Всего 200 200 400
Мы видим, что в Москве носят джинсы 80% опрошенных, а в Санкт-Петербурге — лишь 60%. Но достаточно ли разницы в 20%, чтобы утверждать, что это не случайность, что вообще москвичи чаще склонны носить джинсы, чем петербуржцы?
Для ответа на этот вопрос воспользуемся статистикой z — той же статистикой, имеющей стандартизованное нормальное распределение, которая помогла нам установить, что опреде ленная в ходе другого опроса доля респондентов, одобряющих новый сервисный план, значимо отличается от намеченного исследователем порога (см. с. 354).
Статистика для данного случая имеет следующий вид:
(27)
где Р] и р2 — доли носящих джинсы от числа опрошенных в Москве и Санкт-Петербурге (0,8 и 0,6 соответственно);
sAp — оценка стандартного отклонения разности долей pj и р2.
Оценка стандартного отклонения разности долей рассчиты вается по формуле:
-!- + -) (28) V I», иj
где р — доля пользующихся джинсами среди всех опрошен ных в двух выборках;
«/ и п2 — число опрошенных в Москве и Санкт-Петербурге, соответственно.
Величина р рассчитывается по формуле:
р = (рі П1+Р2 n2)/(ni+n2) (29)
В нашем примере имеем:
р = (0,8 п i+0,6 n2)/(ni+n2) = (0,8*200+0,6*200)/200 = 0,7
zJO,8-0,6) = _012_ = 0,04583 0,04583
Поскольку нас интересует сам факт различия долей носящих джинсы в этих городах, а не превышения доли носящих джинсы в Москве по сравнению с Санкт-Петербургом, нулевая и аль тернативная гипотезы имеют вид: Н0: 711=5X2;
Н,: 7ti*7i2.
Поэтому при прежней доверительной вероятности 0,95 по роговое значение на кривой нормального распределения сле дует отыскивать для величины (1-0,95)/2=0,025. Это значение равно 1,96.
А поскольку 4,36>1,96, нулевая гипотеза отвергается, т.е. данные опросов не противоречат утверждению: доли, носящих джинсы в этих двух городах различны.
Зависимые выборки
Обсуждавшаяся выше проблема касалась случая, когда срав ниваются доли определенным образом ответивших на вопрос в двух разных группах респондентов. Нередко, однако, нужно сравнить между собой не реакции разных респондентов, а две реакции у одних и тех же респондентов. Например, узнать, действительно ли повысилась после рекламной кампании доля участников панели, знающих о существовании некоторого то вара. Или узнать, действительно ли о существовании товара А знают больше респондентов, чем о товаре В, или это просто случайность.
Мы не будем подробно останавливаться на методах провер ки такого рода гипотез. Отметим лишь, что эти проверки можно провести, например, с помощью программного пакета SPSS (меню «Analyse — Compare Means — Pared Samples t-test»).
<< | >>
Источник: Галицкий Е.Б.. Методы маркетинговых исследований. 2004

Еще по теме 12.2. КРОСС-ТАБУЛЯЦИЯ:

  1. Кросс-котировка
  2. Этика в кросс-культурном и международном контексте
  3. Экскурс: работа с кросс- культурными командами
  4. Кросс-хеджирование
  5. III. РАЗВИТИЕ КРОСС-КУЛЬТУРНОЙ СЕНЗИТИВНОСТИ
  6. 62. КОТИРОВКА ВАЛЮТЫ. КРОСС-КУРС
  7. 62. КОТИРОВКА ВАЛЮТЫ. КРОСС-КУРС
  8. 62. КОТИРОВКА ВАЛЮТЫ. КРОСС-КУРС
  9. 12.4. ОБЗОР ДРУГИХ ЗАДАЧ АНАЛИЗА ДАННЫХ
  10. 12.1. ЧАСТОТНЫЕ РАСПРЕДЕЛЕНИЯ
  11. 3.3. Маркетинговые инициативы CRM
  12. Задачи для самостоятельного решения