Невозможность все содержание любой социологической задачи вложить в математическую модель, а любой формальный объект содержательно проинтерпретировать.
Рождение понятий анализа данных и прикладной статистики

РефератПомощь в написанииУзнать стоимостьмоей работы

Итак, мы трактуем прикладную статистику (синоним — анализ данных)1 как результат «погружения» совокупности соответствующих математических алгоритмов в ту содержательную (неформализованную) среду, которая «окружает» процесс использования выбранных алгоритмов. Мы утверждаем, что при современном состоянии науки никакие математические методы не могут использоваться в социологии без описанного… Читать ещё >

Невозможность все содержание любой социологической задачи вложить в математическую модель, а любой формальный объект содержательно проинтерпретировать. Рождение понятий анализа данных и прикладной статистики (реферат, курсовая, диплом, контрольная)

Итак, в течение трех с половиной веков развивались статистические методы социологии в тесном взаимодействии с развитием теории вероятностей и математической статистики. По мере роста возможности получения все более объемных и разнообразных данных, расширялся и круг поддающихся решению содержательных задач, постепенно выходя за пределы статистики. В области разработки методов сбора и анализа данных интересы социологии все более совпадали с интересами других наук (как социальногуманитарных, так и естественных), использующих эмпирический материал для получения нового знания — медицины, геологии, психологии, истории и т. д. Ширилась совокупность алгоритмов, позволяющих решать общие для всех этих наук задачи, методные достижения отдельных наук обогащали друг друга.

Круг используемых алгоритмов ширился не только за счет развития теории вероятностей и математической статистики и не только за счет развития нестатистических подходов, решающих сходные задачи. Опишем важный методологический аспект процесса математического моделирования реальных явлений.

Постепенно стало ясно, что при решении любой содержательной задачи с помощью любого математического метода интерпретация исследователем исходных данных, трактовка решаемой задачи всегда содержали фрагменты, не поддающиеся формализации. И, напротив, фрагменты математических теорий, даже в тех случаях, когда их создание начиналось с формализации реальных явлений, развиваясь в соответствии с законами математики, в итоге увенчивались такими математическими конструкциями, которые иногда не удавалось интерпретировать содержательно.

Кроме того, как мы уже упомянули, решаемые задачи явно вышли за пределы того, что называлось статистикой.

К середине XX в. описываемый процесс развился настолько, что потребовалась институциализация соответствующего направления науки. И она была осуществлена путем введения в науку понятия анализ данных, отвечающего отдельной ветви научного знания^[1], успешно использующейся и развивающейся в настоящее время. В ее основе лежит некое «ядро», набор огромного количества математических (иногда довольно сложных и не всегда строго формализованных, иногда не статистических) алгоритмов обработки данных. В их число обычно включают и методы математической статистики (например, регрессионный и дисперсионный анализы, часто используемые в социологии, второй рассмотрен в данном учебнике). Своеобразие этой ветви заключается прежде всего в том, что ее нельзя назвать математической. Сами алгоритмы зачастую носят эвристический характер (не обоснованы с той строгостью, которая принята в математике); выбор входящих в алгоритм параметров требует вмешательства исследователя. Для полноценного решения содержательной задачи часто нужно комплексное применение нескольких методов, ответ же на вопросы о том, какие алгоритмы и как надо комбинировать, снова требует содержательных соображений исследователя. Исходные данные нуждаются в предварительном преобразовании для того, чтобы их анализ имел смысл (имеются в виду такие процедуры, как нормировка данных, заполнение пропусков, разбиение диапазона изменения переменных на интервалы и т. д.; сюда же можно отнести и некоторые проблемы измерения, т. е. способов получения исходных данных). Для реализации методов анализа данных надо выбрать компьютерные пакеты, что также часто определяется отнюдь не математическими соображениями. В некоторых практических ситуациях требуется разработать логику процесса использования того или иного алгоритма и т. д.

Анализом данных часто называют совокупность формальных алгоритмов «ядра» вместе с правилами их использования для решения конкретных содержательных задач с учетом указанных выше проблем. Упомянутые правила нередко бывают настолько привязаны к содержательной стороне решаемых задач, что приходится говорить об анализе данных для конкретного направления науки, например, в нашем случае, об анализе социологических данных. Таким образом, наше понимание анализа данных отвечает как бы «погружению» «ядра» (совокупности математических алгоритмов) в тот неформальный контекст, в котором происходит практическое использование математических алгоритмов. И надо еще добавить, что раз уж мы говорим об анализе данных как о ветви науки, то подразумеваем наличие всех тех атрибутов, которые присущи той или иной области знания именно как относительно самостоятельной научной ветви. В частности, предполагаем, что эта область знания находится в постоянном развитии, осуществляющемся в соответствии с определенными правилами.

Примерно то же в литературе часто называют прикладной статистикой. Приведем соответствующее определение. Прикладная статистика — научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов^[2]. Другими словами, указанный термин используется для обозначения множества алгоритмов анализа данных (нашего «ядра») вкупе с методами подготовки данных к анализу и выбором компьютерных подходов к реализации рассматриваемых алгоритмов. Это примерно отвечает приведенному выше определению анализа данных. Оба определения неформализованы, поэтому их трудно сравнивать друг с другом. Мы этого и не будем делать, считая эти дефиниции синонимичными. Оговорим лишь один момент: в определении анализа данных мы упоминали как часть контекста, в который «погружается ядро», логику использования как отдельных алгоритмов, так и нескольких методов в комплексе. Этого нет в определении прикладной статистики. Такую корректировку указанного определения вряд ли можно считать принципиальной (с учетом уровня неформализованности наших дефиниций и крута наших рассмотрений). Но мы все же говорим об этом, поскольку выделение соответствующих шагов важно для социолога.

Итак, мы трактуем прикладную статистику (синоним — анализ данных)¹ как результат «погружения» совокупности соответствующих математических алгоритмов в ту содержательную (неформализованную) среду, которая «окружает» процесс использования выбранных алгоритмов. Мы утверждаем, что при современном состоянии науки никакие математические методы не могут использоваться в социологии без описанного «погружения» процесса применения метода в содержательную логику решения конкретной социологической задачи. И это касается не только социологии, но и других ветвей науки, использующих математические методы^[3]^[4].

Подчеркнем один методологический момент. Социолог, желающий воспользоваться положениями прикладной статистики, должен настолько глубоко проанализировать содержательные смыслы и решаемой социологической задачи, и моделей, заложенных в алгоритмах нашего «ядра»^[5], чтобы на основе такого анализа можно было выбрать и эти алгоритмы, и логику их использовании, и тот контекст, в который при таком использовании алгоритмы будут «погружены».

Полагаем, что путем такого «погружения» процесса применения того или иного математического метода в содержательный контекст реальной социологической задачи поможет решить также сформулированную в п. В.2 проблему преподавания студентамсоциологам математических дисциплин. «Погружение» послужит фактором, побуждающим исследователя, помимо всего прочего, раскрыть содержательный смысл моделей, заложенных в используемых математических алгоритмах (в нашем случае — алгоритмах построения доверительных интервалов и проверки статистических гипотез), и на этой базе продумать способы формирования исходных данных и т. д. Обсуждение таких вопросов даст возможность определенной «привязки» курса к содержательной социологической проблематике.

Для того чтобы точно обрисовать круг рассматриваемых в учебнике положений, нужно ограничить и совокупность рассматриваемых алгоритмов (т.е. наше «ядро»; выше мы говорили о произвольных математических методах, содержащихся в ядре), и множество учитываемых характеристик упомянутой неформализованной среды, в которой алгоритмы должны функционировать. И то, и другое невозможно рассмотреть в полной мере в одной книге из-за огромного объема материала и постоянного развития множеств алгоритмов и методических положений по их использованию.

В настоящем учебнике рассматриваются только такие алгоритмы анализа данных, которые обычно относят к области математической статистики в том смысле, который мы охарактеризовали в начале введения. Другими словами, как мы уже оговаривали, речь идет о методах перенесения результатов с выборки на генеральную совокупность, т. е. о способах построения доверительных интервалов и проверки статистических гипотез. Именно для этих методов мы будем говорить о контексте их использования.

Тот неформализованный антураж (содержательный контекст), свойства той среды, которые социолог должен использовать, применяя положения математической статистики для решения содержательных задач, рассматриваются в учебнике в очень небольшой степени: говорится о типах шкал, использованных для получения исходных данных.

При рассмотрении содержательного контекста в учебнике в единый процесс объединяются и анализ содержательных сторон моделей, заложенных в рассматриваемых математических алгоритмах (в данном случае — алгоритмов математической статистики), и изучение характеристик социологической ситуации, в которую «погружено» использование этих алгоритмов.

[1] Термин анализ данных не имеет однозначной трактовки. Об использующихся смыслах см.: Толстова Ю. Н. Анализ данных // Энциклопедический социологический словарь. М.: ИСПИ РАН, 1995. 18—21. Проблема понимания рассматриваемого термина анализируется применительно к потребностям социологии.См.: Толстова Ю. Н. Анализ социологических данных. М: Мир науки, 2000. Подчеркнем еще раз, что мы рассматриваем анализ данных именно как ветвь науки, а не как набор шагов по обработке данных.
[2] Айвазян С. А., Мхитарян В. С. Теория вероятностей и прикладная статистика. М.: ЮНИТИ-ДАНА, 2001. С. 49.
[3] Следует оговорить, что анализ данных включает в себя и нестатистическиеметоды. Такая возможность обычно не предполагается для прикладной статистики, хотя явно это нигде не оговаривается.
[4] Подчеркнем, что сказанное противоречит бытующему среди социологовмнению о том, что математические алгоритмы, будучи частью строгих математических построений, с одинаковым успехом могут быть применены к любымданным (конечно, отвечающим условиям применимости метода), приводя приэтом к некоторому «объективному» результату. Никакой «объективности» бытьне может без привязки математического аппарата к конкретной содержательнойзадаче.
[5] О подобных моделях подробнее см.: Толстова Ю. Н. Анализ социологических данных. М.: Мир науки, 2000.

Показать весь текст

Заполнить форму текущей работой