11.2. ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ

КОМПЬЮТЕРНАЯ ПРОВЕРКА И ПРОБЛЕМА ПРОПУЩЕННЫХ ДАННЫХ
Когда данные введены в компьютер, они проверяются еще раз. Если при вводе попадание данных в допустимые диапазоны не контролировалось, это делается после ввода.
Тогда же отыскиваются логические несообразности, пред назначенные исследователем к проверке, например: судя по ответу на один вопрос анкеты, респондент ничего не знает о существовании какого-то продукта, а судя по ответу на другой вопрос, — часто его потребляет.
Далее иногда выполняется специальная работа с пропущен ными по той или иной причине данными. Такие ситуации моїут возникать из-за неразборчивости или неоднозначного толкова ния записей в некоторых анкетах. Существует несколько под ходов к решению этой проблемы.
Замена ответа нейтральным значением. Чаще всего под нейтральным понимается среднее значение. Такая замена ис-пользуется в количественных вопросах. Она не влияет на среднее значение показателя и на коэффициенты корреляции между показателями (рассчитанные по всей совокупности анкет). Тем не менее, при такой замене все же неизбежно искажается реаль ная картина: в действительности данный респондент ответил бы по-другому. Например, исследования автора показали, что лица, отказавшиеся назвать доход своей семьи, по другим социально- демографическим параметрам (полу, возрасту, роду занятости, должности и месту жительства) нередко очень схожи с теми респондентами, которые сообщили интервьюеру об относитель но высоком доходе (Галицкий, Галицкая, 1995, с. 5). Значит, условно приписывать им среднее значение дохода вряд ли обо сновано.
Приписывание ответа на основании ответов на другие вопросы. Разработано много методов проведения такой опера ции. Например, можно построить зависимость между объемом потребления продукта и размером семьи по анкетам, где есть ответы на оба эти вопроса. После этого в анкетах, в которых не указан объем потребления продукта, проставляется его зна чение, рассчитанное с учетом размера семьи. Такой метод требует значительных усилий, но и он может приводить к искажениям.
Удаление анкет, содержащих хотя бы один пропущенный ответ (casewise deletion). При таком подходе иногда приходится удалять из таблицы данных существенное число строк. Поэтому иногда возвращаются к полевому этапу исследований и опра шивают дополнительных респондентов, чтобы заменить полу ченной от них информацией удаленные строки таблицы дан ных. Этот значительно увеличивает сроки и стоимость работ. Не спасает это и от искажения выборки: респонденты, в чьих анкетах есть пропуски, могут существенно отличаться как от первоначально опрошенных респондентов, так и от тех, кто был опрошен дополнительно.
Учет только имеющихся ответов в каждом конкретном расчете (pairwise deletion). Анкеты с пропущенными ответами не удаляются, но и не учитываются в расчетах, в которых участвует соответствующая переменная. Процедура приемлема, если общее число анкет велико, пропусков относительно немного, а связи между переменными не слишком сильны. И даже при выполнении этих трех условий данная процедура иногда суще ственно искажает результаты. Кроме того, при статистических оценках нужно учитывать, что расчеты выполнены по разному числу анкет.
Итак, разные способы борьбы с пропусками в данных могут приводить к малопривлекательным результатам, осо бенно, если пропуски не совсем случайны, а столбцы таблицы данных взаимосвязаны. Поэтому нужно стремиться, чтобы пропущенных значений было как можно меньше. А исследо ватель должен внимательно изучать этот вопрос в каждом конкретном случае и учитывать возможные последствия при менения того или иного метода обработки пропущенных ответов.
Особенно важно подчеркнуть следующий момент: если ре шено удалять строки таблицы данных, то это должно быть запланировано до начала анализа с указанием критерия, а не тогда, когда расчеты полностью или даже частично произведе ны.
Нарушение этих требований создает угрозу подтасовки результатов: ведь не исключено, что тот или иной принцип удаления строк недобросовестный исследователь решил приме нить лишь потому, что расчеты дали содержательно нежела тельный для него результат.
СТАТИСТИЧЕСКОЕ ВЫРАВНИВАНИЕ ДАННЫХ
Процедуры статистического выравнивания данных состоят из 1) взвешивания; 2) переопределения переменных и 3) пре образования шкал. Иногда эти процедуры существенно повы шают качество анализа данных.
Взвешивание!. Этот метод статистического выравнивания данных означает приписывание каждому респонденту весового коэффициента, отражающего относительную важность учета его высказывания по сравнению с высказываниями других респондентов. Сумма весовых коэффициентов равна общему числу респондентов.
Можно считать, что если взвешивание не производится, то весовой коэффициент каждого респондента равен единице. Если же оно производится, то ответы каждого респондента учитываются во всех расчетах с этим весовым коэффициентом. Например, расчет среднего значения заменяется расчетом сре-дневзвешенного значения. Расчет доли респондентов, давших определенный ответ на определенный вопрос, заменяется рас четом доли, которую составляет сумма весов таких респонден тов в сумме весов всех опрошенных.
Как же устанавливаются значения весовых коэффициентов? Чаще всего так, чтобы выборка лучше отражала структуру исследуемой совокупности с точки зрения основных показате лей. Например, соотношение между группами мужчин и жен щин трех категорий возраста после взвешивания должно стать таким же, как во всей исследуемой совокупности. Для этого весовой коэффициент устанавливается равным отношению доли группы в исследуемой совокупности к ее доле в выборке. Условно говоря, если известно, что доля представителей какой-
1 Процедуру приписывания респондентам весовых коэффициентов при нято называть ремонтом выборки. См. о взвешивании также с. 88 и 274.
то группы в выборке вдвое ниже, чем в исследуемой совокуп ности, то каждый такой респондент при расчетах учитывается не как один, а как два человека.
Иногда применяются и другие подходы. Один из вариантов: придание большего веса тем респондентам, от которых получе ны более качественные данные. Другой вариант — придание респондентам того или иного веса в зависимости от значения определенной маркетинговой характеристики. Например, с весом 3,0 могут учитываться мнения «тяжелых пользователей» продукта, с весом 2,0 — средних пользователей, с весом 1,0 — легких пользователей и тех, кто не пользуется продуктом.
При анализе взвешенных данных нужно иметь в виду, что взвешивание может повышать статистическую погрешность выполняемых оценок.
Переопределение переменных представляет собой создание новых или модификацию существующих переменных в соот ветствии с целями исследователя. Приведем несколько приме ров таких переменных.
Первый тип преобразования — укрупнение шкалы. Предпо ложим, первоначально уровень использования продукта был измерен по десятибалльной шкале. После преобразования можно получить переменную, имеющую не десять, а лишь четыре возможных значения: «тяжелый пользователь», «сред ний пользователь», «легкий пользователь» и «непользователь».
Другой тип преобразования — обобщение сведений, содер жащихся в нескольких столбцах таблицы данных. Так, респон дентов часто спрашивают, где они находили какую-либо ин формацию о продукте. Подсчитывая число различных источников информации (из рекламы по телевидению, от дру зей и т.д.), указанных каждым респондентом, можно сформи ровать новый важный показатель — Индекс Источников Ин формации (IIS — Index of Information Search), который тоже добавляется к таблице данных. Иногда новый показатель пред-ставляет собой отношение двух других показателей. Скажем, разделив общее количество товара, купленного респондентом, на число произведенных им покупок этого товара за месяц, можно рассчитать средний размер одной покупки.
В других случаях для получения адекватной модели взаимо связи показателей, применяется логарифмирование, извлека ется квадратный корень и т.д.
Важный случай преобразования переменных — преобразо-вание альтернативного столбца матрицы данных с тремя или более возможными значениями путем введения в таблицу дан ных нескольких вспомогательных столбцов из нулей и единиц . Каждый из этих новых вспомогательных столбцов «отвечает» за какое-то одно из возможных значений альтернативного столбца: единица означает, что это значение выбрано данным респондентом, а нуль — что не выбрано. Вспомогательные переменные удобны при последующем анализе данных. Напри мер, если альтернативный столбец содержит результаты выбора респондентами наиболее предпочтительной марки товара, то каждая из вспомогательных переменных может использоваться для построения интегрального индикатора отношения к опре деленной марке.
Преобразование шкал. Преобразование шкал используется, чтобы обеспечить сопоставимость оценок разных параметров и сделать данные более пригодными для анализа. Предполо жим, например, что переменные, характеризующие имидж, измерены по семибалльной шкале семантического дифферен циала; переменные, характеризующие отношение — по непре рывной рейтинговой, а переменные, характеризующие жиз ненный стиль — по пятибалльной шкале Лайкерта. Чтобы можно было сравнивать между собой оценки, выставленные одним и тем же респондентом по разным шкалам, их преоб разовывают, приводя к одному и тому же диапазону возмож ных значений.
Нередко для этого используется стандартизация. Чтобы стандартизировать шкалу Xh из оценки, выставленной данному параметру каждым респондентом, нужно вычесть среднюю по всем респондентам оценку данного параметра X. После этого оценки данного параметра делятся на его стандартное откло нение ах Полученный в результате преобразования параметр имеет среднее значение, равное нулю, и стандартное отклоне ние, равное единице. Это в точности соответствует условиям расчета z-оценок. Стандартизация позволяет сравнивать изме рения, сделанные в шкалах разного типа.
Иногда шкалы преобразуются из других соображений. Учи тывают, например, что одни респонденты могут оказаться «добрыми следователями» и смещаться во всех своих оценках к положительной части шкалы, а другие — «злыми следовате лями», смещающими свои оценки к отрицательной части шкалы. Или, если речь идет об оценке важности разных критериев выбора товара, учитывают другое обстоятельство: некоторые (обычно менее обеспеченные) из опрашиваемых указывают относительно много критериев выбора, а другие (обычно более обеспеченные) — лишь несколько. Пусть, на пример, у нас есть оценки важности 18 факторов выбора товара по трехбалльной шкале: очень важный, довольно важный, совсем не важный. Рассчитаем для каждого респондента сред нюю оценку важности критерия и вычтем полученное число (скажем, для какого-то респондента 1,8) из всех выставленных им оценок. Затем, чтобы не получать отрицательных значений рейтинга, добавим одну и ту же для всех респондентов кон-станту.
<< | >>
Источник: Галицкий Е.Б.. Методы маркетинговых исследований. 2004

Еще по теме 11.2. ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ:

  1. 11. ПОДГОТОВКА И ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ
  2. 4.5. НЕТРАДИЦИОННАЯ ОБРАБОТКА ДАННЫХ 4.5.1. ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА
  3. 3.3.3. Обработка первичной информации
  4. Обработка данных
  5. 3.1. Подготовка первичной социологической информации к обработке
  6. 4.3. Режимы автоматизированной обработки данных
  7. § 5. Сбор, обработка и анализ данных
  8. 11.1. ПОДГОТОВКА ДАННЫХ К ОБРАБОТКЕ
  9. Аудит в условиях компьютерной обработки данных
  10. 1.6.1 Взаимосвязь между системами электронной обработки данных и этой книгой
  11. Аудит в условиях применения экономическим субъектом компьютерной обработки данных
  12. Глава 4. Информационный ПРОЦЕСС ОБРАБОТКИ ДАННЫХ