Методы корреляционного анализа

РефератПомощь в написанииУзнать стоимостьмоей работы

Методы корреляционного анализа (реферат, курсовая, диплом, контрольная)

В результате изучения данной главы читатель должен:

знать

• задачи, области и возможности применения методов корреляционного анализа;
• принципы, предпосылки, этапы и методы оценки корреляционных связей;

уметь

• использовать различные методы оценки взаимосвязей характеристик социально-экономических процессов;
• оценивать силу и статистическую значимость корреляционных связей разных видов;
• анализировать и интерпретировать результаты корреляционного анализа и предлагать на этой основе практические управленческие решения;

владеть

• навыками применения методов корреляционного анализа статистических данных в метрических и неметрических шкалах;
• навыками использования статистических программ R_y SPSS, PSPP для оценки корреляционных связей разных видов.

Сущность и задачи корреляционного анализа

Для решения многих исследовательских и бизнес-задач необходимо оценить связь (соотношение) между двумя или несколькими признаками. Для решения такой задачи чаще всего используются показатели корреляционной связи (от лат. correlatio — соотношение). При такой связи среднее значение (математическое ожидание) случайной величины результативного признака у изменяется в зависимости от изменения другой случайной величины x_i или набора случайных величин x_v х₂, …, х_п. Корреляционная связь — частный случай стохастической связи, когда изменение средней величины результативного признака соотносится с изменением средних величин факторных признаков, тогда как в общем случае стохастическая связь может проявляться и в изменениях других характеристик изучаемых признаков [5].

Корреляционные связи — это связи соотносительные, а не причинные, т. е. они необязательно отражают влияние (зависимость) одного фактора на другой. Под причинной зависимостью понимается такая связь между явлениями и процессами, когда изменение одного из них является следствием изменения другого. Корреляционные методы представляют лишь инструмент для изучения статистической зависимости. Представления и гипотезы о причинной связи могут быть получены с помощью теоретического анализа, содержательно объясняющего изучаемое явление.

Особое значение при исследовании причинно-следственных связей имеет выявление временной последовательности: причина всегда должна предшествовать следствию, однако не каждое предшествующее событие следует считать причиной, а последующее следствием.

Корреляция — это статистическая взаимосвязь случайных величин, при которой изменение значений одной или нескольких величин приводит к изменению значений других величин.

Парная корреляция характеризует связь между двумя признаками (результативным и факторным или двумя факторными). Частная корреляция характеризует связь между признаками при исключении влияния (фиксированном значении) других признаков. Множественная корреляция характеризует связь результативного признака и двух или более факторных признаков.

Корреляционный анализ является одним из методов статистического анализа взаимосвязи нескольких признаков и используется для количественной оценки взаимосвязи двух наборов данных. Корреляционный анализ дает возможность установить, ассоциированы ли наборы данных по величине, т. е. большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция), или, наоборот, малые значения одного набора связаны с большими значениями другого {отрицательная корреляция), или данные двух диапазонов никак не связаны {нулевая корреляция).

Корреляционное поле, или диаграмма распределения, — эмпирическое распределение значений исследуемых признаков, представленное на графике. Корреляционное поле является вспомогательным средством при анализе выборочных данных. По характеру расположения точек поля можно составить предварительное мнение о форме зависимости случайных величин (например, о том, что одна величина в среднем возрастает или убывает при возрастании другой). На рис. 8.1 представлены примеры корреляционных нолей, отражающих различные виды связей.

В практике социально-экономических исследований довольно часто определяется частная корреляция. Эго необходимо тогда, когда изучается связь, например, между тремя переменными х, г/, 2 (рис. 8.2) и нужно оце;

Рис. 8.1. Примеры корреляционных нолей:

а — связь отсутствует; б — связь сильная, линейная, прямая; в — связь сильная, линейная, обратная; г — связь сильная, криволинейная.

Рис. 8.2. Возможные взаимосвязи между х, у, z.

нить связь между двумя признаками без учета влияния третьего признака на другие (например, изучается связь х и у без учета влияния z).

Выявление частной корреляции оказывается полезным во многих случаях. Часто обнаруживаются так называемые ложные корреляции, т. е. логически необъяснимые и даже абсурдные.

Пример 8.1. Конкретным примером может служить результат исследования, обнаружившего связь размера обуви с уровнем образованности респондентов. Также была обнаружена корреляция между ростом и уровнем образованности. Отсюда можно сделать нелепый вывод о том, что человек тем более образован, чем большего размера он носит обувь или чем он выше ростом. В то же время существует вполне объяснимая и логичная связь между ростом и размером обуви. Эти показатели связаны с еще одной переменной — возрастом. Вместе эти корреляции приводят к ложным корреляциям «образованность — размер обуви», «образованность — рост». В результате статистически значимый коэффициент корреляции не оказывается индикатором некоторой причинной связи между переменными «образованность» и «размер обуви», а обусловлен влиянием на эти переменные третьей переменной (возраста респондентов). Для исключения искажающих переменных и необходим расчет коэффициентов частной корреляции. В данном случае коэффициенты частной корреляции «образованность — рост» и «образованность — размер обуви» при исключенной переменной «возраст» оказываются близкими к нулю.

Достаточно высокое значение коэффициента меры связи рассматривается многими исследователями как индикатор сильной связи, что как будто предполагает ее безусловное присутствие. Однако для корректного анализа необходимо не только определить вид, степень и направление связи, но и проверить статистическую значимость полученного результата: существует ли связь, обнаруженная в выборке и характеризуемая коэффициентом корреляции, во всей генеральной совокупности, из которой эта выборка была извлечена. Поэтому корреляционный анализ направлен на решение двух задач:

1) количественная оценка силы (тесноты) связи между двумя признаками (при парной связи) и между результативным признаком и множеством факторных признаков (при многофакторной связи);
2) проверка статистических гипотез о наличии и силе корреляционной связи.

Поэтому корреляционный анализ должен основываться как на показателях тесноты связи, так и на показателях ее статистической значимости.

Проверяя любую статистическую гипотезу, исследователь ищет ответ на вопрос, существуют ли в генеральной совокупности те характерные особенности, которые наблюдаются в выборках. Проверке на значимость могут (и должны) быть подвергнуты и меры связи. Это абсолютно необходимая процедура с точки зрения научной строгости анализа и корректности представления исследовательских результатов.

Величина (сила) связи и сс значимость (достоверность) представляют две различные характеристики связи. Тем нс менее нельзя сказать, что они совершенно независимы. В общем случае чем сильнее связь, тем более значимой она является. Это связано с тем, что если предполагать отсутствие связи между соответствующими переменными в генеральной совокупности, то наиболее вероятно ожидать, что в исследуемой выборке связь между этими переменными также будет отсутствовать. Таким образом, чем более сильная связь обнаружена в выборке, тем менее вероятно, что этой связи нет в генеральной совокупности, из которой она извлечена.

Однако указанная связь между силой связи и ее значимостью имеет место только при фиксированном объеме выборки, поскольку при различных объемах выборки связь одинаковой силы может оказаться как высокозначимой, так и незначимой вовсе. Поэтому, определив меру связи, необходимо всегда указывать и уровень значимости, например/? < 0,01.

Согласно общей логике проверки статистических гипотез в данном случае нулевая гипотеза утверждает, что для генеральной совокупности, из которой была извлечена выборка, связь между переменными полностью отсутствует, т. е. значение проверяемого показателя меры связи для генеральной совокупности равно нулю. Дальнейшая логика проверки на статистическую значимость аналогична общей последовательности этапов проверки любой статистической гипотезы.

Базовым условием применения корреляционного анализа является предположение о случайном характере выборки из генеральной совокупности. Однако на практике исследователи иногда отклоняются от этого условия, используя систематические выборки (см. параграф 7.1) или другие схемы отбора исходных данных, нарушающие принципы равновероятностного отбора. Тем не менее результаты корреляционного анализа и в этом случае могут быть очень полезны для выявления связей между признаками. Поэтому на практике такое отклонение считается некритическим.

В зависимости от вида шкал, в которых измерены эмпирические данные, используются разные методы определения степени и направления связи. Например, для номинативных шкал в качестве меры связи вычисляют коэффициент (р (фи) и коэффициент V Крамера, для порядковых — коэффициент у (гамма), p-коэффициент Спирмена, т-коэффициент Кендалла. Для метрических шкал вычисляется коэффициент корреляции (г) Пирсона. В качестве критерия для проверки значимости используется^{-критерий} (для р и г) или г-критерий (для у и т). Некоторые особенности использования этих критериев рассматриваются в следующем параграфе^[1].

[1] Подробно эти методы и критерии рассмотрены в работе [6).

Показать весь текст

Заполнить форму текущей работой