11.1. ПОДГОТОВКА ДАННЫХ К ОБРАБОТКЕ

Когда полевые работы завершены и собранные анкеты доставлены в центральный офис, начинается подготовка дан ных к обработке 1. Она включает в себя следующие шаги:
редактирование анкет с отбраковкой дефектных экземпляров;
кодирование;
ввод данных;
компьютерная проверка;
статистическое выравнивание и преобразование инфор мации;
шкалирование данных.
Подготовка данных осуществляется в соответствии с планом их анализа, предварительно разработанным на стадии формули рования схемы исследования. Конечно, на более поздних стади ях этот план при необходимости может корректироваться.
РЕДАКТИРОВАНИЕ АНКЕТ И ОТБРАКОВКА ДЕФЕКТНЫХ ЭКЗЕМПЛЯРОВ
Прежде всего, выявляются и отбраковываются анкеты со следующими грубыми дефектами.
Некоторые страницы анкеты были пропущены в ходе анкетирования и остались совсем не заполненными.
Судя по ответам, респондент вообще не понимал, о чем его спрашивали.
Обнаружена малая вариация оценок, поставленных рес пондентом совершенно разным объектам, о которых его попросили высказать свое мнение. Например, всем объ-ектам выставлены одинаковые оценки шкалы.
На вопросы анкеты отвечал человек, которого не следо вало включать в выборку данного исследования.
Затем в анкетах выявляются неразборчивые записи, несоот ветствия, двусмысленности.
К неразборчивой относят запись, которую вряд ли удастся правильно ввести в компьютер или закодировать.
Несоответствием называется, например, ситуация, когда респондент сообщает о низком уровне дохода своей семьи и одновременно, — что он часто совершает покупки в дорогом и престижном универмаге.
Двусмысленностью считается, например, наличие двух отмеченных в анкете ответов на вопрос, на который можно было дать только один ответ.
Анкеты с дефектами, если можно, возвращаются в поле для уточнения. Если такой возможности нет, они либо исправля ются путем приписывания соответствующим вопросам кода «нет ответа», либо удаляются. Последним, однако, злоупотреб лять нельзя: это исказит выборку. Анкеты можно удалять, только если одновременно выполнены три условия:
отсутствуют приемлемые ответы на ключевые вопросы анкеты;
число некачественных анкет не слишком велико (обыч но — не более 10%);
соответствующие респонденты не отличаются от прочих очевидным образом, например, по своим социально-де мографическим характеристикам.
Если исследователь решил удалить какую-то часть анкет, он должен сообщить об этом в отчете.
КОДИРОВАНИЕ АНКЕТ
Следующая задача, которую необходимо решить — это под готовка данных для ввода в компьютер. Для этого необходимо решить, каким образом будет отражаться в компьютерном представлении каждый вопрос анкеты, и каждый вариант от вета на него.
Вне зависимости от конкретной программной реализации можно считать, что в результате ввода данных опроса в ком пьютер формируется прямоугольная таблица, в каждой строке которой содержатся сведения об ответах определенного рес пондента . Разработка правил занесения этой информации в таблицу данных называется кодированием.
Согласно общим правилам кодирования числа заносятся в таблицу данных так, чтобы ответы всех респондентов на один и тот же вопрос располагались друг под другом, образуя столб цы таблицы .
Структурированные и неструктурированные вопросы коди руются по-разному. Начнем со структурированных вопросов. Если с точки зрения методики опроса и обработки данных они подразделяются на дихотомические, шкальные и списочные (см.
с. 232), то с точки зрения кодирования, удобнее придер живаться несколько иного деления: на альтернативные, со вместные и количественные. Поясним различия между ними следующим примером.
Табл. 23.
Пример кодирования результатов опроса (фрагмент таблицы) ЧІ Я2_1 q2 2 q2 3 q2 4 q2,5 q2 6 q2 7 ЯЗ 2 0 1 0 0 0 1 0 3520 1 1 1 0 1 0 0 0 1600 0 0 0 0 0 0 0 0 -9
Шапка таблицы 23 содержит заголовки столбцов. В ней содержится информация о том, на какой именно вопрос анкеты закодированы ответы в каждом столбце. Например, для обработ ки данных в пакете SPSS каждый столбец таблицы данных должен иметь заголовок, который содержит не более 8 символов без пробелов и знаков препинания (кроме нижней черты), начинающихся с буквы. В нашем примере первая буква всех заголовков q является сокращением от слова question — вопрос. Вслед за буквой q ставится число — номер вопроса анкеты в сплошной нумерации, а затем при необходимости — знак ниж него подчеркивания и номер ответа на вопрос.
Начнем с альтернативного вопроса . Рассмотрим столбец ql. Отсутствие в заголовке знака нижнего подчеркивания и номера ответа означает, что на вопрос № 1 респондент может назвать только один вариант из предусмотренного в анкете набора возможных ответов. Благодаря этому всю информацию об ответах можно разместить в одном столбце. Числа 2, 1 и 0 в клетках этого столбца означают, что первый респондент дал ответ, соответствующий второму из предусмотренных вариан тов, второй респондент — соответствующий первому из воз можных вариантов, а третий вообще не ответил. Например, если первый вопрос — дихотомический, предусматривающий лишь ответы 1. «да» и 2. «нет», то первый респондент ответил «нет», второй — «да», а третьему этот вопрос согласно инструк ции не задавался или его ответ по ошибке не был зафиксирован интервьюером .
Перейдем к принципу кодирования совместного вопроса . Рассмотрим следующие семь столбцов: q2_l, q2_2, ... q2_7. Они содержат информацию об ответах на вопрос № 2 — списочный, ответ на который может соответствовать сразу нескольким предусмотренным в анкете вариантам. Например, этот вопрос может выглядеть в анкете так.
2. Рекламу каких марок товара «X» вы когда-либо встречали?
(Любое число ответов.) Карточка №1
Марка «А»
Марка «Б»
Марка «В»
Марка «Г»
Другие марки данного товара
Не встречал (-а) рекламу данного товара
Затрудняюсь ответить
Для ответа на этот вопрос респонденту предъявляется кар точка № 1 со списком названий четырех марок.
Каждый из этих столбцов q2_l, q2_2, ... q2_7соответствует одному из вариантов ответа на этот вопрос. Единица в определенном столбце означает, что ответ респондента дан ному варианту соответствует, а нуль — что нет. Так, ответ первого из наших респондентов соответствовал вариантам 2 и 6, второго — вариантам 1, 2 и 4, а третьего — ни одному из вариантов.
Третий вопрос анкеты — шкальный, причем такой, что варианты ответов на него заранее не предусмотрены. Отвечая на него, респондент называет одно число, например, сумму своего личного дохода за последний истекший месяц . Как мы видим (см. табл. 23), первый из опрошенных заработал 3520 рублей, второй — 1600 рублей. Что касается третьего, то его ответ в анкете отсутствует: либо этот вопрос ему не был задан, либо респондент на него не ответил, либо его ответ не был записан интервьюером.
ч і
Мы видим, что в описываемой нами системе кодирования пропуски ответов на вопросы разного типа кодируются по-раз ному : на альтернативные вопросы — нулем, на совместные вопросы — нулями во всех столбцах, на количественные вопро сы — числом -9.
Таким образом, по технологии Фонда «Общественное мне ние» кодирование всех вопросов анкеты, за исключением от крытых, производится стандартным для всех опросов способом. Это возможно благодаря двум обстоятельствам.
Во-первых, все вопросы анкеты нумеруются насквозь, что значительно упрощает задание обозначений столбцам таблицы данных. Надо отметить, что этот удобный для кодирования подход не является общепринятым в практике опросов. Многие исследовательские компании используют двухуровневую нуме рацию вопросов. Первый уровень обычно представляет собой порядковый номер блока вопросов, а второй (обычно это буквы в алфавитном порядке) обозначает вопрос внутри блока . Это, конечно, удобно использовать в ходе интервью, но требует состав ления специальной инструкции по кодированию всех вопросов.
Во-вторых, по технологии Фонда «Общественное мнение» варианты ответа на каждый альтернативный или совместный вопрос нумеруются, начиная с единицы, и приводятся в анкете. Номер нужного варианта, как уже отмечалось, интервьюеры обводят кружком, после чего обведенные ими номера вводятся в компьютер. Заметим, что такого принципа придерживаются не все исследовательские компании. Иногда номера вариантов ответа в анкете не приводятся. Вместо этого рядом с каждым вариантом ответа помещается рамочка, пометка в которой (обычно крестик) означает выбор данного варианта. Поскольку номера ответов, «привязанные» к каждой рамочке, при таком подходе указываются не в анкете, а в другом документе — инструкции по кодированию, то вводить данные из таких анкет вручную становится невозможным; нужны специальные скане ры и программное обеспечение.
В целом, стандартизованная система кодирования, исполь зуемая в Фонде «Общественное мнение», позволяет легко по нять смысл содержимого любого столбца таблицы данных, просто взглянув в любой экземпляр анкеты. В некоторых других технологиях для этого либо составляют специальную табли цу — журнал кодировки (codebook), либо записывают соответ ствующие сведения в одном из экземпляров анкеты.
Теперь о кодировании неструктурированных (открытых) вопросов. По технологии Фонда «Общественное мнение» текс ты, произнесенные респондентами в ответ на каждый из них, вводятся в соответствующую колонку той же таблицы данных. При использовании других технологий сами тексты ответов в таблицу не добавляются. Вместо этого несколько позднее туда вносятся коды ответов.
Вне зависимости от того, добавляются тексты в таблицу данных или нет, осуществляется кодирование открытых вопро сов. При кодировании каждого открытого вопроса условно формируется еще один — совместный, то есть в таблицу данных справа дописывается набор числовых столбцов. Каждый из таких столбцов «отвечает» за определенный смысл: в нем, как в обычном совместном вопросе, ставятся единицы или нули в зависимости от того, отражен или не отражен данный смысл в ответе респондента.
Кодирование открытых вопросов — достаточно трудоемкая работа. Лишь в редких случаях — при наличии опыта проведе ния аналогичных проектов, — коды возможных ответов на эти вопросы готовятся заранее, до начала полевых работ. Гораздо чаще эти коды разрабатываются на основе текстов, записанных в полученных из поля анкетах. Традиционно исследователи для этого просматривают не все, а лишь часть заполненных анкет — обычно от 50 до 100. В отличие от этой традиции, в Фонде «Общественное мнение» используется специальное программ ное обеспечение, облегчающее просмотр текстов и позволяю щее кодировщикам просматривать весь набор содержательных ответов.
В результате этого просмотра разрабатывается так называе мый кодификатор — набор формализованных вариантов, каж дый из которых отражает какой-нибудь один интересующий исследователя смысловой аспект. Каждому из этих вариантов приписывается определенный числовой код.
При разработке кодификатора обычно придерживаются двух важных правил.
Во-первых, в совокупности они должны исчерпывать все множество возможных ситуаций. Если вариантов ответов ока зывается слишком много, те из них, которые встречаются относительно редко, объединяются в позицию «другое». Одна ко к этой категории исследователь обычно имеет право отнести не более 10% респондентов. В противном случае какие-то смыслы необходимо вновь выделить из этой категории.
Во-вторых, коды содержательно важных позиций необходимо вставлять, даже если соответствующие им смыслы выражались респондентами редко или даже не выражались вовсе, поскольку отсутствие упоминаний — тоже информация! Предположим, на пример, что требуется изучить отношение покупателей к упаков ке туалетного мыла. Пусть анкета содержала следующий вопрос: что меньше всего нравится покупателям в данном сорте туалет ного мыла? Допустим, что никто из респондентов не сказал, что это упаковка. Тем не менее, такая категория была введена в кодификатор, хотя она и «набрала» 0% сторонников.
После разработки кодификатора кодировщик просматрива ет весь набор ответов и приписывает каждому из них в зависи мости от содержания один или несколько кодов, которым он соответствует по смыслу. В результате заполняются столбцы нового совместного вопроса.
Мы описали наиболее типичную, на наш взгляд, ситуацию, когда в результате кодирования открытого вопроса формируется набор столбцов совместного вопроса. Однако традиционно при проведении маркетинговых исследований стараются сформиро вать не совместный, а альтернативный вопрос, то есть ответу каждого респондента стараются приписывать не несколько кодов, а один. Формально говоря, если создан совместный вопрос, то всегда можно перейти от него к альтернативному, просто обозначив новым кодом каждое из встретившихся соче таний исходных кодов. В действительности же такой переход далеко не всегда может принести реальную пользу, так как всевозможных сочетаний может оказаться слишком много.
В завершение темы кодирования анкет отметим, что неко торые исследовательские компании (как это было необходимо в период хранения данных на 80-ти колонных перфокартах) все еще составляют более детальный журнал кодировки (codebook), в котором для каждого столбца данных отражается еще и его разрядность. Приведем пример фрагмента такого журнала, в котором описано содержимое первых 80-ти колонок данных (табл. 24).
Табл. 24.
Фрагмент традиционного журнала кодировки Номера колонок Порядковый
номер переменней Наименование переменной Номер вопроса Инструкции по кодированию 1-3 1 Идентификационный номер респондента 001-890, при необходимос-ти добавлять ведущие нули 4 2 Порядковый номер строки из числа строк с информацией, по-лученной от данного респондента 1 (для всех респондентов) 5-6 3 код проекта 31 (для всех респондентов) 7-8 4 код интервьюера как указан в анкете 9-14 5 код даты как указана в анкете 15-20 6 код времени интервью как указано в анкете 21-22 7 код пригодности как указан в анкете 23-24 пустые колонки оставить колонки пустыми 25 8 кем является интер-вьюируемый покупа-тель I мужчина глава семьи — 1 женщина глава семьи = 2 другое = 3 26 9 степень знакомства с магазином №1 Па печатается обведенное в анкете число, мало знаком = 1, ... хорошо знаком = 6, код пропуска = 9 27 10 то же с магазином №2 lib то же 35 18 тоже магазином №10 "І то же 36 19 частота посещения магазина №1 Ilia печатается обведенное в анкете число, не посещаю = 1, ... очень часто посещаю = 6, код пропуска = 9 37 20 то же с магазином №2 ІІІЬ то же 45 28 то же с магазином №10 IHj то же 46-47 пустые колонки оставить колонки пустыми
Номера колонок Порядковый
номер переменной Наименование переменной Номер вопроса Инструкции по кодированию 48 29 рейтинг магазина № 1 по качеству IVa печатается обведенное в ан-кете число 57 38 то же для магазина №10 IVj то же 58 39 рейтинг магазина №1 по разнообразию Va печатается обведенное в ан-кете число 67 48 тожедля магазина №10 У) то же 68 29 рейтинг магазина №1 по ценам Via печатается обведенное в ан-кете число 77 38 то же для магазина № 10 vi,і то же 78 пустые колонки оставить колонки пустыми
ВВОД ДАННЫХ
В случае проведения компьютерного телефонного (СА ТІ), пер сонального (САРІ) или Интернет-опроса данные вводятся в ком пьютер непосредственно в ходе интервью. В других случаях они вводятся в компьютер с помощью считывающего устройства или с клавиатуры компьютера. В последнем случае для ввода исполь зуется разнообразное программное обеспечение, позволяющее проверять допустимость значений вводимых переменных, их ло гическую непротиворечивость по отношению к другим ответам. Некоторые из таких программ могут выполнять и более сложные функции, например, первичный анализ распределения ответов.
Контроль попадания данных в допустимый диапазон не страхует от всех возможных ошибок ввода. Поэтому часть анкет, а в Фонде «Общественное мнение» — все анкеты, вво дятся еще и вторым оператором, и результаты ввода сравнива ются.
Иногда вместо ручного ввода применяются различные сред ства автоматизации. Используются два варианта таких техно логий. В первом варианте применяются специальные сканеры, считывающие информацию о пометках, внесенных в строго фиксированные места каждого листа бумажной анкеты. Иногда при этом в ходе полевых работ анкеты заполняются специаль ным карандашом, пометки которого «узнает» сканер. Во втором варианте листы анкеты сканируются целиком, а затем с помо щью специального программного обеспечения и на основе заданной «привязки» вопросов к намеченной компьютером сетке распознаются информативные места каждого листа и с них считывается информация.
<< | >>
Источник: Галицкий Е.Б.. Методы маркетинговых исследований. 2004

Еще по теме 11.1. ПОДГОТОВКА ДАННЫХ К ОБРАБОТКЕ:

  1. 11. ПОДГОТОВКА И ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ
  2. 4.5. НЕТРАДИЦИОННАЯ ОБРАБОТКА ДАННЫХ 4.5.1. ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА
  3. 4.3. Режимы автоматизированной обработки данных
  4. Обработка данных
  5. § 5. Сбор, обработка и анализ данных
  6. 11.2. ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ
  7. 1.6.1 Взаимосвязь между системами электронной обработки данных и этой книгой
  8. Аудит в условиях компьютерной обработки данных
  9. 3.1. Подготовка первичной социологической информации к обработке
  10. Глава 4. Информационный ПРОЦЕСС ОБРАБОТКИ ДАННЫХ
  11. Аудит в условиях применения экономическим субъектом компьютерной обработки данных
  12. Глава 10 АВТОМАТИЗИРОВАННЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ОБРАБОТКИ ДАННЫХ В НАЛОГОВОЙ СЛУЖБЕ
  13. 5.2. Подготовка данных для анализа
  14. 4.4 Результативность и эффективность файлов данных (картотек, массивов данных)
  15. II Главные возражения против антропологических данных. — Метод исследования. — Научные предположения. — Разногласие данных. — Признаки преступности, даже у честных людей. — Историческая и антропологическая изменчивость понятия преступления. Его определение. — Преступный тип. — Происхождение и природа преступности.
  16. 3.3.3. Обработка первичной информации
  17. 3.3. Способы и режимы обработки экономической информации