Статистический анализ данных

КонтрольнаяПомощь в написанииУзнать стоимостьмоей работы

Для вычисления средней относительной ошибки аппроксимации рассмотрим остатки модели, содержащиеся в столбце Остатки итогов программы РЕГРЕССИЯ (таблица «Вывод остатка»). Дополним таблицу столбцом относительных погрешностей, которые вычислим по формуле с помощью функции ABS. Исходными данными для моделирования являются социально-экономические показатели субъектов Сибирского федерального округа… Читать ещё >

Статистический анализ данных (реферат, курсовая, диплом, контрольная)

Задача 1. Обработка результатов наблюдений

Задана выборка значений случайной величины (признака) Х, полученных в результате проведения в одних и тех же условиях п взаимно независимых опытов. Требуется выполнить обработку результатов наблюдений случайной величины Х :

1. Построить вариационный (статистический) ряд.

2. Построить для полученного вариационного ряда гистограмму и эмпирическую функцию распределения.

3. Определить выборочные оценки числовых характеристик случайной величины: выборочную среднюю, медиану, моду, дисперсию, выборочное среднее квадратическое отклонение, коэффициент вариации, коэффициент асимметрии и коэффициент эксцесса.

4. Оценить точность выборки.

5. Провести выравнивание статистического ряда с помощью нормального закона распределения, в качестве параметров использовать выборочные оценки математического ожидания и среднего квадратического отклонения. Показать на одной диаграмме гистограмму эмпирических частот и теоретическую нормальную кривую.

6. Проверить согласованность теоретического и статистического распределений, используя критерий Пирсона.

Имеются данные о возрасте ста работников одного предприятия по состоянию на 1 января текущего года (Х, лет):

Решение:

Построить вариационный (статистический) ряд:

1. Для построения вариационного (статистического) ряда предварительно по формуле Стерджесса определим рекомендуемое число интервалов (целочисленное значение) n=1+3, 3221*lg100=7, 6 (будем использовать приблизительное значение 8).

2. Найдем наименьшее и наибольшее значения величины Х в выборке (функции МИН и МАКС), размах выборки = 71−17=54

3. Величина каждого интервала группировки составит =54/8=6,75 (с целью выбора удобного, по возможности целочисленного значения длины интервалов допускается расширение границ выборки с увеличением ее размаха до 5%).

4. Прибавляя к минимальному значению признака (в данном случае 7) найденное значение длины интервала, получим верхнюю границу первой группы: 7 + 8 = 15. Прибавляя далее величину к верхней границе первой группы, получаем верхнюю границу второй группы и т. д. В результате определим границы интервалов группировки.

5. Используем диапазон верхних границ (bi) интервалов группировки (интервал карманов) и с помощью сервиса Данные / Анализ данных / Гистограмма получим частоты вариационного ряда.


№ интервала	ai	bi	Частота ni







		Еще

Построенный вариационный ряд показывает, что возраст работников одного предприятия по состоянию на 1 января текущего года от 24 до 66 лет.

Построить для полученного вариационного ряда гистограмму и эмпирическую функцию распределения:

Установим в диалоговом окне программы Гистограмма дополнительно флажки «Интегральный процент» для построения эмпирической функции распределения и «Вывод графика» для построения гистограммы частот. Получим:

Гистограмма частот наглядно отражает особенности интервального вариационного ряда, в частности позволяет предположить, что величина Х (возраст сотрудников) распределена по нормальному закону.

Эмпирическая функция распределения (интегральный процент) показывает, какова доля сотрудников, возраст которых оказался меньше указанной величины («карман»). Так, например, возраст 30% сотрудников менее 60 лет; возраст 85% сотрудников — менее 24 лет.

Определить выборочные оценки числовых характеристик случайной величины: выборочную среднюю, медиану, моду, дисперсию, выборочное среднее квадратическое отклонение, коэффициент вариации, коэффициент асимметрии и коэффициент эксцесса.

Для определения числовых характеристик случайной величины Х воспользуемся сервисом Данные / Анализ данных / Описательная статистика (использование программы требует размещения исходных данных в одном столбце). Для получения результатов следует установить флажок «Итоговая статистика» .

В результате получим:

Коэффициент вариации определим по формуле = 0,36. Средние величины (среднее, медиана, мода) характеризуют значение признака, вокруг которого концентрируются наблюдения — центральную тенденцию распределения:

— Средний возраст работников по организации составил = 37,68 лет.;

— медиана, равная 35,5 лет показывает возраст сотрудников: возраст 50% сотрудников не больше, чем 35,5 лет, а для 50% - не меньше, чем 35,5 лет;

— мода равна 51

Наиболее важными показателями вариации (рассеяния) наблюдений вокруг средней величины являются дисперсия выборки S² = 184,1996; выборочное среднее квадратическое (стандартное) отклонение S = 13,5; коэффициент вариации = 3,6%. Невысокая величина коэффициента вариации свидетельствует об однородности значений признака Х (возраст сотрудников).

Коэффициент асимметрии составил 0,4. с Коэффициент эксцесса равен -0,8. Близкое к нулю значение говорит о том, что рассматриваемое распределение по крутости приближается к нормальной кривой.

Оценить точность выборки.

Примем уровень значимости. С помощью функции ДОВЕРИТ определим ошибку выборки — размах доверительного интервала для математического ожидания генеральной совокупности: = 2,6.

Нижняя и верхняя границы доверительного интервала для математического ожидания генеральной совокупности равны соответственно =37,68−2,6=35,01 и =37,68+2,6=40,34. Таким образом, с надежностью 7,06% средний возраст сотрудников по организации заключен в границах от 35,01 до 40,34 лет.

Для оценки точности выборки рассчитаем относительную ошибку = 2,6/37,68=7,06% и сделаем вывод в соответствии со схемой:

На уровне значимости точность выборки следует признать удовлетворительной.

Провести выравнивание статистического ряда с помощью нормального закона распределения, в качестве параметров использовать выборочные оценки математического ожидания и среднего квадратического отклонения. Показать на одной диаграмме гистограмму эмпирических частот и теоретическую нормальную кривую.

Для проведения вычислений подготовим таблицу. Занесем в нее границы a_i и b_i интервалов группировки, середины x_i этих интервалов, соответствующие частоты n_i.

Построим интегральную функцию нормального распределения с параметрами и. Используем функцию НОРМРАСП; для каждого интервала в качестве значения, для которого строится распределение, укажем верхнюю границу b_i. Для последнего интервала занесем в таблицу значение .

Определим теоретические вероятности попадания нормально распределенной величины в i-ый интервал группировки (для первого интервала укажем).

Рассчитаем теоретические частоты, соответствующие интервалам группировки. Проверим выполнение условия .


a_i	b_i	x_i	n_i	функция норм. распр. Ф (х)	pi теор	ni теор
		20,5		0,156 737 689	0,156 737 689	15,67 376 891
		27,5		0,311 292 781	0,154 555 092	15,45 550 918
		34,5		0,509 405 361	0,19 811 258	19,81 125 802
		41,5		0,705 175 626	0,195 770 265	19,57 702 645
		48,5		0,854 313 014	0,149 137 388	14,91 373 883
		55,5		0,941 894 676	0,87 581 662	8,7 581 662
		62,5			0,58 105 324	5,810 532 414

Покажем на одной диаграмме гистограмму частот и нормальную кривую:

Диаграмма показывает соответствие гистограммы частот и нормальной кривой с параметрами и .

Проверить согласованность теоретического и статистического распределений, используя критерий Пирсона.

Критерий Пирсона основан на сравнении эмпирических и теоретических частот. Для его использования необходимо, чтобы в каждом интервале группировки было достаточное количество данных. В случае малочисленных эмпирических частот (n_i_эмп< 5) следует объединить соседние интервалы, в этом случае и соответствующие им теоретические частоты также складываются. При этом необходимо следить за правильностью расчета значений функции нормального распределения, теоретических частот и выполнением условия. Объединим первый и второй интервалы, частота для объединенного интервала будет 6+14=20. Объединим восьмой и девятый интервалы, частота для объединенного последнего интервала 2+2=4. Общее количество интервалов группировки после объединения m=7. Дополним скорректированную таблицу столбцом «мера расхождения», выполнив расчеты по формуле Пирсона .

Таблица


a_i	b_i	x_i	n_i	функция норм. распр. Ф (х)	pi теор	ni теор	хи2 i
		20,5		0,156 737 689	0,156 737 689	15,67 376 891	0,345 249
		27,5		0,311 292 781	0,154 555 092	15,45 550 918	1,989 024
		34,5		0,509 405 361	0,19 811 258	19,81 125 802	0,1 798
		41,5		0,705 175 626	0,195 770 265	19,57 702 645	3,75 774
		48,5		0,854 313 014	0,149 137 388	14,91 373 883	0,499
		55,5		0,941 894 676	0,87 581 662	8,7 581 662	0,65 632
		62,5			0,58 105 324	5,810 532 414	0,243 495
							6,403 437

Фактически наблюдаемое значение статистики Пирсона составляет

=6,403.

Критическое значение статистики = 9,49 найдено для уровня значимости 5% и числа степеней свободы k=m-3=4 с помощью функции ХИ2ОБР. Сравним фактическое значение статистики с критической величиной и сделаем вывод в соответствии со схемой:

теоретическое и статистическое распределения согласованы, на уровне значимости следует принять гипотезу о нормальном законе распределения случайной величины Х возраста сотрудников.

Задача 2. Статистический анализ связей

Исходными данными для моделирования являются социально-экономические показатели субъектов Сибирского федерального округа (Приложение 1). Требуется исследовать зависимость результирующего признака Y, соответствующего варианту задания, от факторных переменных Х₁, Х₂ и Х₃:

Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, X_i); выбрать наиболее информативный фактор. вариационный статистический корреляция регрессия

Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.

Проверить значимость коэффициентов модели с помощью t-критерия Стьюдента (принять уровень значимости б=0,05).

Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F — критерия Фишера (принять уровень значимости б=0,05).

С доверительной вероятностью г=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 1). Представить графически фактические и модельные значения Y, результаты прогнозирования.

Решение:

Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, X_i); выбрать наиболее информативный фактор.

Используем Excel (Данные / Анализ данных / КОРРЕЛЯЦИЯ):

Получим матрицу коэффициентов парной корреляции между всеми имеющимися переменными:

Проанализируем коэффициенты корреляции между результирующим признаком Y и каждым из факторов X_j:

r (Y, X₁)= 0,084>0, следовательно, между переменными Y и Х₁ наблюдается прямая корреляционная зависимость: чем выше среднедушевые денежные доходы (в месяц), тем больше потребление сахара на душу населения (в год).

r (Y, X₂)=-0,466<0, значит, между переменными Y и Х₂ наблюдается обратная корреляционная зависимость: чем среднемесячная номинальная начисленная заработная плата работников организаций, тем ниже потребление сахара на душу населения (в год).

r (Y, X₃)=-0,68<0, значит, между переменными Y и Х₃ наблюдается обратная корреляционная зависимость: чем индекс потребительских цен (декабрь к декабрю предыдущего года) больше, тем меньше потребление сахара на душу населения (в год).

Для проверки значимости найденных коэффициентов корреляции используем критерий Стьюдента.

Для каждого коэффициента корреляции вычислим t-статистику по формуле и занесем результаты расчетов в дополнительный столбец корреляционной таблицы:

По таблице критических точек распределения Стъюдента при уровне значимости и числе степеней свободы k=n-2=12−2=10, определим критическое значение t_кр.=2,23 (функция СТЬЮДРАСПОБР).

Сопоставим фактические значения t с критическим t_kp, и сделаем выводы в соответствии со схемой:

t (r (Y, X₁))=0,28

t (r (Y, X₂))=1,68

t (r (Y, X₃))=2,94

Для построения парной линейной модели используем программу РЕГРЕССИЯ (Данные / Анализ данных). В качестве «входного интервала Х» покажем значения фактора Х₁.

Результаты вычислений представлены в таблицах:

Коэффициенты модели содержатся в третьей таблице итогов РЕГРЕССИИ (столбец Коэффициенты).

Таким образом, модель парной регрессии построена, ее уравнение имеет вид

Y = 457,85 — 3,9783 * X

Проверить значимость коэффициентов модели с помощью t-критерия Стьюдента (принять уровень значимости б=0,05).

Значимость коэффициентов модели проверим с помощью t — критерия Стьюдента.

t — статистики для коэффициентов уравнения регрессии приведены в столбце «t-статистика» третьей таблицы итогов РЕГРЕССИИ:

— для свободного коэффициента a= 457,85 определена статистика

t (a)= 3,18.

— для коэффициента регрессии b= -3,98 определена статистика

t (b)= -2,94.

Критическое значение t_кр=2,23 найдено для уровня значимости =5% и числа степеней свободы 10 (функция СТЬЮДРАСПОБР).

Схема проверки:

t (a)=3,18>t_кр. свободный коэффициент а является значимым.

t (b)=2,94>t_кр. коэффициент регрессии b является значимым.

Выводы о значимости коэффициентов модели сделаны на уровне значимости =5%. Рассматривая столбец «Р-значение», отметим, что свободный коэффициент а можно считать значимым на уровне 0,988; коэффициент регрессии b — на уровне 0,015.

Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F — критерия Фишера (принять уровень значимости б=0,05).

Для вычисления средней относительной ошибки аппроксимации рассмотрим остатки модели, содержащиеся в столбце Остатки итогов программы РЕГРЕССИЯ (таблица «Вывод остатка»). Дополним таблицу столбцом относительных погрешностей, которые вычислим по формуле с помощью функции ABS.

По столбцу относительных погрешностей найдем среднее значение E_отн=8,86 (функция СРЗНАЧ).

Оценим точность построенной модели в соответствии со схемой:

E_отн=8,86 — модель имеет удовлетворительную точность.

Коэффициент детерминации R-квадрат определен программой РЕГРЕССИЯ (таблица «Регрессионная статистика») и составляет R²=0,463. Таким образом, вариация (изменение) потребления сахара Y на 46,3% объясняется по уравнению модели вариацией индекса потребительских цен.

Проверим значимость полученного уравнения с помощью F — критерия Фишера.

F — статистика определена программой РЕГРЕССИЯ (таблица «Дисперсионный анализ») и составляет F = 8,65.

Критическое значение F_кр= 4,964 найдено для уровня значимости =5% и чисел степеней свободы k₁=1, k₂=10 (функция FРАСПОБР).

Схема проверки:

Сравнение показывает: F = 8,65 > F_кр = 4,964; следовательно, уравнение модели является значимым, его использование целесообразно, зависимая переменная Y (потребление сахара) достаточно хорошо описывается включенной в модель факторной переменной Х₁ (индекс потребительских цен).

С доверительной вероятностью г=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 1). Представить графически фактические и модельные значения Y, результаты прогнозирования.

Согласно условию задачи прогнозное значение факторной переменной Х₃ составляет 106,0. Рассчитаем по уравнению модели прогнозное значение показателя Y:

Y = 457,85 — 3,9783 * 106 = 36,15

Таким образом, если индекс потребительских цен составит 106, то потребление сахара будет около 36,15 кг.

Зададим доверительную вероятность и построим доверительный прогнозный интервал для среднего значения Y.

Для этого нужно рассчитать стандартную ошибку прогнозирования для среднего значения результирующего признака

Предварительно подготовим:

— стандартную ошибку модели S_E= 4,46 (таблица «Регрессионная статистика» итогов РЕГРЕССИИ);

по столбцу исходных данных Х₁ найдем среднее значение равное 106,56 (функция СРЗНАЧ) и определим ?(x_i-x)²= 10,86 916 667 (функция КВАДРОТКЛ);

— (функция СТЬЮДРАСПОБР).

Для построения чертежа используем Мастер диаграмм (точечная) — покажем исходные данные (поле корреляции).

Список использованной литературы

1. Кремер Н. Ш. Теория вероятностей и математическая статистика: Учебник / Н. Ш. Кремер. — 3-е изд., перераб. и доп. — М: ЮНИТИ-ДАНА. — 2012. — 551 с., ЭБС Book.ru

2. Козлов А. Ю. Статистический анализ данных в MS Excel: Учебное пособие / А. Ю. Козлов, В. С. Мхитарян, В. Ф. Шишов. — М.: ИНФРА-М, 2012. — 320 с., ЭБС Znanium

3. М. Л. Поддубная. Анализ данных. Методические указания по решению задач и выполнению контрольной работы (для студентов, обучающихся по направлению 80 500.62 «Бизнес-информатика», квалификация (степень) бакалавр). — Барнаул: Изд-во АлтГТУ, 2014. — 34 с.

Показать весь текст

Заполнить форму текущей работой