Подготовка и первичная обработка данных

РефератПомощь в написанииУзнать стоимостьмоей работы

Подготовка и первичная обработка данных (реферат, курсовая, диплом, контрольная)

Подготовка данных к обработке

Когда полевые работы завершены и собранные анкеты доставлены в центральный офис или региональные офисы, начинается подготовка данных к обработке. Она включает в себя следующие шаги:

o редактирование анкет с отбраковкой дефектных экземпляров;
o подготовка макета для ввода данных в компьютер;
o ввод данных;
o компьютерная проверка;
o статистическое выравнивание и преобразование информации;
o шкалирование данных.

Подготовка макета, как и разработка анкеты, выполняется с учетом плана анализа данных, предварительно разработанного на стадии формулирования схемы исследования.

Редактирование анкет и отбраковка дефектных экземпляров

Прежде всего выявляются и отбраковываются анкеты со следующими грубыми дефектами.

o Некоторые страницы анкеты были пропущены в ходе анкетирования и остались совсем не заполненными.
o Судя по ответам, респондент вообще не понимал, о чем его спрашивали.
o Обнаружена малая вариация оценок, поставленных респондентом совершенно разным объектам, о которых его попросили высказать свое мнение. Например, всем объектам выставлены одинаковые оценки шкалы.
o На вопросы анкеты отвечал человек, которого не следовало включать в выборку данного исследования.

Затем в анкетах выявляются неразборчивые записи, несоответствия, двусмысленности.

К неразборчивой относят запись, которую вряд ли удастся правильно ввести в компьютер или закодировать.

Несоответствием называется, например, ситуация, когда респондент сообщает о низком уровне дохода своей семьи и одновременно о том, что он часто совершает покупки в дорогом и престижном универмаге.

Двусмысленностью считается, например, наличие двух отмеченных в анкете ответов на вопрос, на который можно было дать только один ответ.

Анкеты с дефектами, если можно, возвращаются в поле для уточнения. Если такой возможности нет, они либо исправляются путем удаления очевидным образом неверных ответов, либо удаляются. Последним, однако, злоупотреблять нельзя: это исказит выборку. Анкеты можно удалять, только если одновременно выполнены три условия:

1) отсутствуют приемлемые ответы на ключевые вопросы анкеты;
2) число некачественных анкет не слишком велико (обычно не более 10%);
3) соответствующие респонденты не отличаются от прочих очевидным образом, например по своим социально-демографическим характеристикам.

Если исследователь решил удалить какую-то часть анкет, он должен сообщить об этом в отчете.

Заметим, что критерии, по которым анкета удаляется, должны быть разработаны до начала полевого этапа опроса и ни в коем случае не должны корректироваться позднее. Иначе возможны подтасовки: недобросовестный исследователь может удалить часть анкет, в которых респонденты выразили нежелательные для него взгляды, на ходу придумывая новые критерии, которым не удовлетворяют именно эти анкеты. Бывает, что благодаря такой «чистке» данных, например, добиваются, чтобы рейтинг компании-заказчика стал выше, чем у конкурентов. Таким образом, как говорилось выше, этические требования следует учитывать на всех этапах маркетингового исследования.

Подготовка макета для ввода данных в компьютер

Мы уже отмечали, что в Фонде Общественное Мнение эта стадия работы выполняется до начала полевых работ. Однако в некоторых компаниях эта задача решается после сбора заполненных анкет. Так или иначе, обсудим вопрос о том, каким образом должен отражаться в компьютерном представлении каждый вопрос анкеты и каждый вариант ответа на него.

Вне зависимости от конкретной программной реализации можно считать, что в результате ввода данных опроса в компьютер формируется прямоугольная таблица, в каждой строке которой содержатся сведения об ответах определенного респондента.

Согласно общим правилам кодирования числа заносятся в таблицу данных так, чтобы ответы всех респондентов на один и тот же вопрос располагались друг под другом, образуя столбцы таблицы.

Структурированные и неструктурированные вопросы кодируются по-разному. Начнем со структурированных вопросов. Если с точки зрения методики опроса и обработки данных они подразделяются на дихотомические, шкальные и списочные (см. с. 254), то с точки зрения компьютерного представления удобнее делить вопросы на альтернативные, совместные и количественные. Альтернативными мы будем называть вопросы, в качестве ответа на которые можно указать не более одного варианта ответа, совместными — два или более вариантов ответа, а количественными — какая-либо сумма: возраст в годах, максимальная приемлемая цена товара в рублях и т. п.

Итак, с точки зрения методики опроса альтернативные вопросы могут быть дихотомическими, шкальными или списочными, они допускают выбор не более одного варианта ответа. Совместные вопросы — только списочными, на которые допускается выбор двух и более вариантов ответа, а количественные — только шкальными, если в них не предусмотрен ограниченный список возможных ответов.

Остановимся на правилах представления данных для альтернативных, совместных и количественных вопросов.

Таблица 11.1. Кодирование результатов опроса

q1	q2_l	q2₂	q2₃	q2₄	q2₅	q2₆	q2₇	q3	…
									…
								12 000.	…
								— 2.	…
…	…	…	…	…	…	…	…	…	…

Шапка табл. 11.1 содержит заголовки столбцов. В ней содержится информация о том, на какой именно вопрос анкеты закодированы ответы в каждом столбце. Например, для обработки данных в пакете SPSS каждый столбец таблицы данных должен иметь заголовок, который содержит название вопроса. Это название должно начинаться с буквы, не должно содержать пробелов и других знаков препинания, кроме нижней черты. В нашем примере первая буква всех заголовков q является сокращением от слова question — вопрос. Вслед за буквой q ставится число — номер вопроса анкеты в сплошной нумерации, а затем при необходимости — знак нижнего подчеркивания и номер ответа на вопрос.

Начнем с альтернативного вопроса. Рассмотрим столбец q1. Отсутствие в заголовке после числа «1» знака нижнего подчеркивания и номера ответа означает, что вопрос № 1 альтернативный, т. е. респондент может назвать только один вариант из предусмотренного в анкете набора возможных ответов. Благодаря этому всю информацию об ответах можно разместить в одном столбце, записав номер названного ответа. Числа 2 и 1 в клетках этого столбца означают, что первый респондент дал ответ, соответствующий второму из предусмотренных вариантов, а второй респондент — соответствующий первому. Например, если первый вопрос — дихотомический, предусматривающий лишь ответы 1) «да» и 2) «нет», то первый респондент ответил «нет», второй — «да». Клетка, в которой должен был быть отражен ответ третьего респондента, как мы видим, осталась пустой. Это значит, что третьему респонденту этот вопрос согласно инструкции не задавался или его ответ по ошибке не был зафиксирован интервьюером.

Перейдем к принципу представления данных об ответах на совместный вопрос. Рассмотрим следующие семь столбцов: q2_l, q2₂,…, q2₇. Они содержат информацию об ответах на вопрос № 2 — совместный, ответ на который может соответствовать сразу нескольким предусмотренным в анкете вариантам. Например, этот вопрос может выглядеть так.

2. Рекламу каких марок товара «X» вы когда-либо встречали? (Любое число ответов.).

Карточка № 1

Подготовка и первичная обработка данных.

5. Другие марки данного товара
6. Не встречал (-а) рекламу данного товара
7. Затрудняюсь ответить

Для ответа на этот вопрос респонденту предъявляется карточка № 1 со списком названий четырех марок.

Каждый из этих столбцов q2_l, q2₂, q2₇ соответствует одному из вариантов ответа на вопрос. Единица в определенном столбце означает, что ответ респондента данному варианту соответствует, а нуль — что нет. Так, ответ первого из наших респондентов соответствовал вариантам 2 и 6, второго — вариантам 1, 2 и 4, а третьего — ни одному из вариантов.

Третий вопрос анкеты — количественный. Отвечая на него, респондент называет одно число, например сумму своего личного дохода за последний истекший месяц. Как мы видим (см. табл. 11.1), первый из опрошенных заработал 7800 руб., второй — 12 000 руб. Что касается третьего, то он отказался назвать свой личный доход. Согласно методике Фонда Общественное Мнение именно числом -2 обычно фиксируется ситуация, когда респондент отказывается дать ответ на количественный вопрос, а код -1 обычно сигнализирует, что респондент затруднился ответить. Информация о том, какой смысл придается в данном случае каждому специальному коду, записывается в анкете как дополнительные варианты ответа под строкой для записи числового ответа на количественный вопрос. В количественном вопросе могут предусматриваться и любые специальные коды, лишь бы соответствующие значения не могли встретиться среди содержательных ответов на этот вопрос. Если данные обрабатываются в SPSS, специальным кодам придается смысл пропусков в данных.

Таким образом, по технологии Фонда Общественное Мнение кодирование всех вопросов анкеты, за исключением открытых, производится стандартным для всех опросов способом. Это возможно благодаря двум обстоятельствам.

Во-первых, все вопросы анкеты в большинстве случаев нумеруются насквозь, что значительно упрощает задание обозначений столбцам таблицы данных. Исключение, однако, составляют так называемые табличные вопросы, каждый из которых представляет собой группу обычных вопросов одного типа, как правило, с общей вводной фразой. Использовать табличные вопросы вместо того, чтобы продолжать сквозную нумерацию входящих в них вопросов, бывает удобно, если анкета очень велика. В Фонде Общественное Мнение столбцам данных с ответами на табличный вопрос принято давать названия, например, следующим образом: q₇_6. Знак подчеркивания после буквы q свидетельствует, что речь идет о табличном, а не отдельном вопросе. Семерка — это номер данной группы вопросов в сквозной нумерации индивидуальных вопросов и таблиц с вопросами, шестерка — номер конкретного вопроса внутри табличного. В остальном правила представления ответов на табличные вопросы не отличаются от обычных правил, которые обсуждались выше. Тем не менее использование табличных вопросов требует пояснений о том, что в этой таблице считается вопросом, а что вариантами ответов: столбцы или строки. Эта информация обычно в стандартную анкету не заносится, и поэтому при анализе данных приходится использовать специальную инструкцию по кодированию. (Заметим, что во многих компаниях использование такой инструкции является не исключением, а правилом.).

Во-вторых, по технологии Фонда Общественное Мнение варианты ответа на каждый альтернативный или совместный вопрос нумеруются, начиная с единицы, и приводятся в анкете. Номер нужного варианта, как уже отмечалось, интервьюеры обводят кружком, после чего обведенные ими номера вводятся в компьютер. Заметим, что такого принципа придерживаются не все исследовательские компании. Иногда номера вариантов ответа в анкете не приводятся. Вместо этого рядом с каждым вариантом ответа помещается рамочка, пометка в которой (обычно крестик или галочка) означает выбор данного варианта. Поскольку номера ответов, «привязанные» к каждой рамочке, при таком подходе указываются не в анкете, а в другом документе — инструкции по кодированию, то вводить данные из таких анкет вручную становится невозможным; нужны специальные сканеры и программное обеспечение.

В целом стандартизованная система кодирования, используемая в фонде «Общественное мнение», позволяет легко понять смысл содержимого любого столбца таблицы данных, просто взглянув в любой экземпляр анкеты. В некоторых других технологиях для этого либо составляют специальную таблицу — журнал кодировки (codebook), либо записывают соответствующие сведения в одном из экземпляров анкеты.

Теперь о кодировании неструктурированных (открытых) вопросов. По технологии фонда «Общественное мнение» тексты, произнесенные респондентами в ответ на каждый из них, вводятся в соответствующую колонку той же таблицы данных. При использовании других технологий сами тексты ответов в таблицу не добавляются. Вместо этого несколько позднее туда вносятся коды ответов.

Вне зависимости от того, добавляются тексты в таблицу данных или нет, осуществляется кодирование открытых вопросов. При кодировании каждого открытого вопроса условно формируется еще один — совместный, т. е. в таблицу данных справа дописывается набор числовых столбцов. Каждый из таких столбцов «отвечает» за определенный смысл: в нем, как в обычном совместном вопросе, ставятся единицы или нули в зависимости от того, отражен или не отражен данный смысл в ответе респондента.

Кодирование открытых вопросов — достаточно трудоемкая работа. Лишь в редких случаях — при наличии опыта проведения аналогичных проектов — коды возможных ответов на эти вопросы готовятся заранее, до начала полевых работ. Гораздо чаще эти коды разрабатываются на основе текстов, записанных в полученных из поля анкетах. Традиционно исследователи для этого просматривают не все, а лишь часть заполненных анкет — обычно от 50 до 100. В отличие от этой традиции, в Фонде Общественное Мнение используется специальное программное обеспечение, облегчающее просмотр текстов и позволяющее кодировщикам просматривать весь набор содержательных ответов.

В результате этого просмотра разрабатывается так называемый кодификатор — набор формализованных вариантов, каждый из которых отражает какой-нибудь один интересующий исследователя смысловой аспект. Каждому из этих вариантов приписывается определенный числовой код.

При разработке кодификатора обычно придерживаются двух важных правил.

Во-первых, в совокупности они должны исчерпывать все множество возможных ситуаций. Если вариантов ответов оказывается слишком много, те из них, которые встречаются относительно редко, объединяются в позицию «другое». Однако к этой категории исследователь обычно имеет право отнести не более 10% респондентов. В противном случае какие-то смыслы необходимо вновь выделить из этой категории.

Во-вторых, коды содержательно важных позиций необходимо вставлять, даже если соответствующие им смыслы выражались респондентами редко или даже не выражались вовсе, поскольку отсутствие упоминаний — тоже информация! Предположим, например, что требуется изучить отношение покупателей к упаковке туалетного мыла. Пусть анкета содержала следующий вопрос: что меньше всего нравится покупателям в данном сорте туалетного мыла? Допустим, что никто из респондентов не сказал, что это упаковка. Тем не менее, такая категория была введена в кодификатор, хотя она и «набрала» 0% сторонников.

После разработки кодификатора кодировщик просматривает весь набор ответов и приписывает каждому из них в зависимости от содержания один или несколько кодов, которым он соответствует по смыслу. В результате заполняются столбцы нового совместного вопроса.

Мы описали наиболее типичную, на наш взгляд, ситуацию, когда в результате кодирования открытого вопроса формируется набор столбцов совместного вопроса. Однако традиционно при проведении маркетинговых исследований стараются сформировать не совместный, а альтернативный вопрос, т. е. ответу каждого респондента стараются приписывать не несколько кодов, а один. Формально говоря, если создан совместный вопрос, то всегда можно перейти от него к альтернативному, просто обозначив новым кодом каждое из встретившихся сочетаний исходных кодов. В действительности же такой переход далеко не всегда может принести реальную пользу, так как всевозможных сочетаний может оказаться слишком много.

В завершение темы кодирования анкет отметим, что некоторые исследовательские компании (как это было необходимо в период хранения данных на 80-колонных перфокартах) все еще составляют более детальный журнал кодировки, в котором для каждого столбца данных отражается еще и его разрядность. Приведем пример фрагмента такого журнала, в котором описано содержимое первых 80 колонок данных (табл. 11.2).

Таблица 11.2. Фрагмент традиционного журнала кодировки

Номера колонок	Порядковый номер переменной	Наименование переменной	Номер вопроса	Инструкции по кодированию
1−3.		Идентификационный номер респондента.		001−890, при необходимости добавлять ведущие нули.
		Порядковый номер строки из числа строк с информацией, полученной от данного респондента.		1 (для всех респондентов).
5−6.		код проекта.		31 (для всех респондентов).
7−8.		код интервьюера.		как указан в анкете.
9−14.		код даты.		как указана в анкете.
15−20.		код времени интервью.		как указано в анкете.
21−22.		код пригодности.		как указан в анкете.
23−24.		пустые колонки.		оставить колонки пустыми.
		кем является интервьюируемый покупатель.	I.	мужчина глава семьи = 1 женщина глава семьи = 2 другое = 3.
		степень знакомства с магазином № 1.	IIа.	печатается обведенное в анкете число, «мало знаком» = 1, «хорошо знаком» = = 6,. код пропуска = 9.
		то же с магазином № 2.	IIb.	то же.
…	…	…	…	…
		то же с магазином № 10.	IIj.	то же.
		частота посещения магазина № 1.	IIIа.	печатается обведенное в анкете число, «не посещаю» = 1, «очень часто посещаю» = 6, код пропуска = 9.
		то же с магазином № 2.	IIIb.	то же.
…	…	…	…	…
		то же с магазином № 10.	IIIj.	то же.
46−47.		пустые колонки.		оставить колонки пустыми.
Номера коло нок.	Порядковый номер перемен ной.	Наименование переменной.	Номер вопроса.	Инструкции по кодированию.
		рейтинг магазина № 1 по качеству.	IVa.	печатается обведенное в анкете число.
…	…	…	…	…
		то же для магазина № 10.	IVj.	то же.
		рейтинг магазина № 1 по разнообразию.	Va.	печатается обведенное в анкете число.
…	…	…	…	…
		то же для магазина № 10.	Vj.	то же.
		рейтинг магазина № 1 по ценам.	VIa.	печатается обведенное в анкете число.
…	…	…	…	…
		то же для магазина № 10.	VIj.	то же.
		пустые колонки.		оставить колонки пустыми.

Ввод данных

В случае проведения компьютерного телефонного (САTI), персонального (САРI) или интернет-опроса данные вводятся в компьютер непосредственно в ходе интервью. В других случаях они вводятся в компьютер с помощью считывающего устройства или с клавиатуры компьютера. В последнем случае для ввода используется разнообразное программное обеспечение, позволяющее проверять допустимость значений вводимых переменных, их логическую непротиворечивость по отношению к другим ответам. Некоторые из таких программ могут выполнять и более сложные функции, например первичный анализ распределения ответов.

Контроль попадания данных в допустимый диапазон не страхует от всех возможных ошибок ввода. Поэтому часть анкет, а в Фонде Общественное Мнение — все анкеты, вводятся еще и вторым оператором и результаты ввода сравниваются.

Иногда вместо ручного ввода применяются различные средства автоматизации. Используются два варианта таких технологий. В первом варианте применяются специальные сканеры, считывающие информацию о пометках, внесенных в строго фиксированные места каждого листа бумажной анкеты. Иногда при этом в ходе полевых работ анкеты заполняются специальным карандашом, пометки которого «узнает» сканер. Во втором варианте листы анкеты сканируются целиком, а затем с помощью специального программного обеспечения и на основе заданной «привязки» вопросов к намеченной компьютером сетке распознаются информативные места каждого листа и с них считывается информация.

Показать весь текст

Заполнить форму текущей работой