Статистический анализ данных
Для вычисления средней относительной ошибки аппроксимации рассмотрим остатки модели, содержащиеся в столбце Остатки итогов программы РЕГРЕССИЯ (таблица «Вывод остатка»). Дополним таблицу столбцом относительных погрешностей, которые вычислим по формуле с помощью функции ABS. Исходными данными для моделирования являются социально-экономические показатели субъектов Сибирского федерального округа… Читать ещё >
Статистический анализ данных (реферат, курсовая, диплом, контрольная)
Задача 1. Обработка результатов наблюдений
Задана выборка значений случайной величины (признака) Х, полученных в результате проведения в одних и тех же условиях п взаимно независимых опытов. Требуется выполнить обработку результатов наблюдений случайной величины Х :
1. Построить вариационный (статистический) ряд.
2. Построить для полученного вариационного ряда гистограмму и эмпирическую функцию распределения.
3. Определить выборочные оценки числовых характеристик случайной величины: выборочную среднюю, медиану, моду, дисперсию, выборочное среднее квадратическое отклонение, коэффициент вариации, коэффициент асимметрии и коэффициент эксцесса.
4. Оценить точность выборки.
5. Провести выравнивание статистического ряда с помощью нормального закона распределения, в качестве параметров использовать выборочные оценки математического ожидания и среднего квадратического отклонения. Показать на одной диаграмме гистограмму эмпирических частот и теоретическую нормальную кривую.
6. Проверить согласованность теоретического и статистического распределений, используя критерий Пирсона.
Имеются данные о возрасте ста работников одного предприятия по состоянию на 1 января текущего года (Х, лет):
Решение:
Построить вариационный (статистический) ряд:
1. Для построения вариационного (статистического) ряда предварительно по формуле Стерджесса определим рекомендуемое число интервалов (целочисленное значение) n=1+3, 3221*lg100=7, 6 (будем использовать приблизительное значение 8).
2. Найдем наименьшее и наибольшее значения величины Х в выборке (функции МИН и МАКС), размах выборки = 71−17=54
3. Величина каждого интервала группировки составит =54/8=6,75 (с целью выбора удобного, по возможности целочисленного значения длины интервалов допускается расширение границ выборки с увеличением ее размаха до 5%).
4. Прибавляя к минимальному значению признака (в данном случае 7) найденное значение длины интервала, получим верхнюю границу первой группы: 7 + 8 = 15. Прибавляя далее величину к верхней границе первой группы, получаем верхнюю границу второй группы и т. д. В результате определим границы интервалов группировки.
5. Используем диапазон верхних границ (bi) интервалов группировки (интервал карманов) и с помощью сервиса Данные / Анализ данных / Гистограмма получим частоты вариационного ряда.
№ интервала | ai | bi | Частота ni | |
Еще | ||||
Построенный вариационный ряд показывает, что возраст работников одного предприятия по состоянию на 1 января текущего года от 24 до 66 лет.
Построить для полученного вариационного ряда гистограмму и эмпирическую функцию распределения:
Установим в диалоговом окне программы Гистограмма дополнительно флажки «Интегральный процент» для построения эмпирической функции распределения и «Вывод графика» для построения гистограммы частот. Получим:
Гистограмма частот наглядно отражает особенности интервального вариационного ряда, в частности позволяет предположить, что величина Х (возраст сотрудников) распределена по нормальному закону.
Эмпирическая функция распределения (интегральный процент) показывает, какова доля сотрудников, возраст которых оказался меньше указанной величины («карман»). Так, например, возраст 30% сотрудников менее 60 лет; возраст 85% сотрудников — менее 24 лет.
Определить выборочные оценки числовых характеристик случайной величины: выборочную среднюю, медиану, моду, дисперсию, выборочное среднее квадратическое отклонение, коэффициент вариации, коэффициент асимметрии и коэффициент эксцесса.
Для определения числовых характеристик случайной величины Х воспользуемся сервисом Данные / Анализ данных / Описательная статистика (использование программы требует размещения исходных данных в одном столбце). Для получения результатов следует установить флажок «Итоговая статистика» .
В результате получим:
Коэффициент вариации определим по формуле = 0,36. Средние величины (среднее, медиана, мода) характеризуют значение признака, вокруг которого концентрируются наблюдения — центральную тенденцию распределения:
— Средний возраст работников по организации составил = 37,68 лет.;
— медиана, равная 35,5 лет показывает возраст сотрудников: возраст 50% сотрудников не больше, чем 35,5 лет, а для 50% - не меньше, чем 35,5 лет;
— мода равна 51
Наиболее важными показателями вариации (рассеяния) наблюдений вокруг средней величины являются дисперсия выборки S2 = 184,1996; выборочное среднее квадратическое (стандартное) отклонение S = 13,5; коэффициент вариации = 3,6%. Невысокая величина коэффициента вариации свидетельствует об однородности значений признака Х (возраст сотрудников).
Коэффициент асимметрии составил 0,4. с Коэффициент эксцесса равен -0,8. Близкое к нулю значение говорит о том, что рассматриваемое распределение по крутости приближается к нормальной кривой.
Оценить точность выборки.
Примем уровень значимости. С помощью функции ДОВЕРИТ определим ошибку выборки — размах доверительного интервала для математического ожидания генеральной совокупности: = 2,6.
Нижняя и верхняя границы доверительного интервала для математического ожидания генеральной совокупности равны соответственно =37,68−2,6=35,01 и =37,68+2,6=40,34. Таким образом, с надежностью 7,06% средний возраст сотрудников по организации заключен в границах от 35,01 до 40,34 лет.
Для оценки точности выборки рассчитаем относительную ошибку = 2,6/37,68=7,06% и сделаем вывод в соответствии со схемой:
На уровне значимости точность выборки следует признать удовлетворительной.
Провести выравнивание статистического ряда с помощью нормального закона распределения, в качестве параметров использовать выборочные оценки математического ожидания и среднего квадратического отклонения. Показать на одной диаграмме гистограмму эмпирических частот и теоретическую нормальную кривую.
Для проведения вычислений подготовим таблицу. Занесем в нее границы ai и bi интервалов группировки, середины xi этих интервалов, соответствующие частоты ni.
Построим интегральную функцию нормального распределения с параметрами и. Используем функцию НОРМРАСП; для каждого интервала в качестве значения, для которого строится распределение, укажем верхнюю границу bi. Для последнего интервала занесем в таблицу значение .
Определим теоретические вероятности попадания нормально распределенной величины в i-ый интервал группировки (для первого интервала укажем).
Рассчитаем теоретические частоты, соответствующие интервалам группировки. Проверим выполнение условия .
ai | bi | xi | ni | функция норм. распр. Ф (х) | pi теор | ni теор | |
20,5 | 0,156 737 689 | 0,156 737 689 | 15,67 376 891 | ||||
27,5 | 0,311 292 781 | 0,154 555 092 | 15,45 550 918 | ||||
34,5 | 0,509 405 361 | 0,19 811 258 | 19,81 125 802 | ||||
41,5 | 0,705 175 626 | 0,195 770 265 | 19,57 702 645 | ||||
48,5 | 0,854 313 014 | 0,149 137 388 | 14,91 373 883 | ||||
55,5 | 0,941 894 676 | 0,87 581 662 | 8,7 581 662 | ||||
62,5 | 0,58 105 324 | 5,810 532 414 | |||||
Покажем на одной диаграмме гистограмму частот и нормальную кривую:
Диаграмма показывает соответствие гистограммы частот и нормальной кривой с параметрами и .
Проверить согласованность теоретического и статистического распределений, используя критерий Пирсона.
Критерий Пирсона основан на сравнении эмпирических и теоретических частот. Для его использования необходимо, чтобы в каждом интервале группировки было достаточное количество данных. В случае малочисленных эмпирических частот (niэмп< 5) следует объединить соседние интервалы, в этом случае и соответствующие им теоретические частоты также складываются. При этом необходимо следить за правильностью расчета значений функции нормального распределения, теоретических частот и выполнением условия. Объединим первый и второй интервалы, частота для объединенного интервала будет 6+14=20. Объединим восьмой и девятый интервалы, частота для объединенного последнего интервала 2+2=4. Общее количество интервалов группировки после объединения m=7. Дополним скорректированную таблицу столбцом «мера расхождения», выполнив расчеты по формуле Пирсона .
Таблица
ai | bi | xi | ni | функция норм. распр. Ф (х) | pi теор | ni теор | хи2 i | |
20,5 | 0,156 737 689 | 0,156 737 689 | 15,67 376 891 | 0,345 249 | ||||
27,5 | 0,311 292 781 | 0,154 555 092 | 15,45 550 918 | 1,989 024 | ||||
34,5 | 0,509 405 361 | 0,19 811 258 | 19,81 125 802 | 0,1 798 | ||||
41,5 | 0,705 175 626 | 0,195 770 265 | 19,57 702 645 | 3,75 774 | ||||
48,5 | 0,854 313 014 | 0,149 137 388 | 14,91 373 883 | 0,499 | ||||
55,5 | 0,941 894 676 | 0,87 581 662 | 8,7 581 662 | 0,65 632 | ||||
62,5 | 0,58 105 324 | 5,810 532 414 | 0,243 495 | |||||
6,403 437 | ||||||||
Фактически наблюдаемое значение статистики Пирсона составляет
=6,403.
Критическое значение статистики = 9,49 найдено для уровня значимости 5% и числа степеней свободы k=m-3=4 с помощью функции ХИ2ОБР. Сравним фактическое значение статистики с критической величиной и сделаем вывод в соответствии со схемой:
теоретическое и статистическое распределения согласованы, на уровне значимости следует принять гипотезу о нормальном законе распределения случайной величины Х возраста сотрудников.
Задача 2. Статистический анализ связей
Исходными данными для моделирования являются социально-экономические показатели субъектов Сибирского федерального округа (Приложение 1). Требуется исследовать зависимость результирующего признака Y, соответствующего варианту задания, от факторных переменных Х1, Х2 и Х3:
Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, Xi); выбрать наиболее информативный фактор. вариационный статистический корреляция регрессия
Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.
Проверить значимость коэффициентов модели с помощью t-критерия Стьюдента (принять уровень значимости б=0,05).
Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F — критерия Фишера (принять уровень значимости б=0,05).
С доверительной вероятностью г=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 1). Представить графически фактические и модельные значения Y, результаты прогнозирования.
Решение:
Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признака Y с каждым из факторов Х; оценить статистическую значимость коэффициентов корреляции r(Y, Xi); выбрать наиболее информативный фактор.
Используем Excel (Данные / Анализ данных / КОРРЕЛЯЦИЯ):
Получим матрицу коэффициентов парной корреляции между всеми имеющимися переменными:
Проанализируем коэффициенты корреляции между результирующим признаком Y и каждым из факторов Xj:
r (Y, X1)= 0,084>0, следовательно, между переменными Y и Х1 наблюдается прямая корреляционная зависимость: чем выше среднедушевые денежные доходы (в месяц), тем больше потребление сахара на душу населения (в год).
r (Y, X2)=-0,466<0, значит, между переменными Y и Х2 наблюдается обратная корреляционная зависимость: чем среднемесячная номинальная начисленная заработная плата работников организаций, тем ниже потребление сахара на душу населения (в год).
r (Y, X3)=-0,68<0, значит, между переменными Y и Х3 наблюдается обратная корреляционная зависимость: чем индекс потребительских цен (декабрь к декабрю предыдущего года) больше, тем меньше потребление сахара на душу населения (в год).
Для проверки значимости найденных коэффициентов корреляции используем критерий Стьюдента.
Для каждого коэффициента корреляции вычислим t-статистику по формуле и занесем результаты расчетов в дополнительный столбец корреляционной таблицы:
По таблице критических точек распределения Стъюдента при уровне значимости и числе степеней свободы k=n-2=12−2=10, определим критическое значение tкр.=2,23 (функция СТЬЮДРАСПОБР).
Сопоставим фактические значения t с критическим tkp, и сделаем выводы в соответствии со схемой:
t (r (Y, X1))=0,28
t (r (Y, X2))=1,68
t (r (Y, X3))=2,94
Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.
Для построения парной линейной модели используем программу РЕГРЕССИЯ (Данные / Анализ данных). В качестве «входного интервала Х» покажем значения фактора Х1.
Результаты вычислений представлены в таблицах:
Коэффициенты модели содержатся в третьей таблице итогов РЕГРЕССИИ (столбец Коэффициенты).
Таким образом, модель парной регрессии построена, ее уравнение имеет вид
Y = 457,85 — 3,9783 * X
Проверить значимость коэффициентов модели с помощью t-критерия Стьюдента (принять уровень значимости б=0,05).
Значимость коэффициентов модели проверим с помощью t — критерия Стьюдента.
t — статистики для коэффициентов уравнения регрессии приведены в столбце «t-статистика» третьей таблицы итогов РЕГРЕССИИ:
— для свободного коэффициента a= 457,85 определена статистика
t (a)= 3,18.
— для коэффициента регрессии b= -3,98 определена статистика
t (b)= -2,94.
Критическое значение tкр=2,23 найдено для уровня значимости =5% и числа степеней свободы 10 (функция СТЬЮДРАСПОБР).
Схема проверки:
t (a)=3,18>tкр. свободный коэффициент а является значимым.
t (b)=2,94>tкр. коэффициент регрессии b является значимым.
Выводы о значимости коэффициентов модели сделаны на уровне значимости =5%. Рассматривая столбец «Р-значение», отметим, что свободный коэффициент а можно считать значимым на уровне 0,988; коэффициент регрессии b — на уровне 0,015.
Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации и F — критерия Фишера (принять уровень значимости б=0,05).
Для вычисления средней относительной ошибки аппроксимации рассмотрим остатки модели, содержащиеся в столбце Остатки итогов программы РЕГРЕССИЯ (таблица «Вывод остатка»). Дополним таблицу столбцом относительных погрешностей, которые вычислим по формуле с помощью функции ABS.
По столбцу относительных погрешностей найдем среднее значение Eотн=8,86 (функция СРЗНАЧ).
Оценим точность построенной модели в соответствии со схемой:
Eотн=8,86 — модель имеет удовлетворительную точность.
Коэффициент детерминации R-квадрат определен программой РЕГРЕССИЯ (таблица «Регрессионная статистика») и составляет R2=0,463. Таким образом, вариация (изменение) потребления сахара Y на 46,3% объясняется по уравнению модели вариацией индекса потребительских цен.
Проверим значимость полученного уравнения с помощью F — критерия Фишера.
F — статистика определена программой РЕГРЕССИЯ (таблица «Дисперсионный анализ») и составляет F = 8,65.
Критическое значение Fкр= 4,964 найдено для уровня значимости =5% и чисел степеней свободы k1=1, k2=10 (функция FРАСПОБР).
Схема проверки:
Сравнение показывает: F = 8,65 > Fкр = 4,964; следовательно, уравнение модели является значимым, его использование целесообразно, зависимая переменная Y (потребление сахара) достаточно хорошо описывается включенной в модель факторной переменной Х1 (индекс потребительских цен).
С доверительной вероятностью г=80% осуществить прогнозирование среднего значения показателя Y (прогнозные значения факторов приведены в Приложении 1). Представить графически фактические и модельные значения Y, результаты прогнозирования.
Согласно условию задачи прогнозное значение факторной переменной Х3 составляет 106,0. Рассчитаем по уравнению модели прогнозное значение показателя Y:
Y = 457,85 — 3,9783 * 106 = 36,15
Таким образом, если индекс потребительских цен составит 106, то потребление сахара будет около 36,15 кг.
Зададим доверительную вероятность и построим доверительный прогнозный интервал для среднего значения Y.
Для этого нужно рассчитать стандартную ошибку прогнозирования для среднего значения результирующего признака
.
Предварительно подготовим:
— стандартную ошибку модели SE= 4,46 (таблица «Регрессионная статистика» итогов РЕГРЕССИИ);
по столбцу исходных данных Х1 найдем среднее значение равное 106,56 (функция СРЗНАЧ) и определим ?(xi-x)2= 10,86 916 667 (функция КВАДРОТКЛ);
— (функция СТЬЮДРАСПОБР).
Для построения чертежа используем Мастер диаграмм (точечная) — покажем исходные данные (поле корреляции).
Список использованной литературы
1. Кремер Н. Ш. Теория вероятностей и математическая статистика: Учебник / Н. Ш. Кремер. — 3-е изд., перераб. и доп. — М: ЮНИТИ-ДАНА. — 2012. — 551 с., ЭБС Book.ru
2. Козлов А. Ю. Статистический анализ данных в MS Excel: Учебное пособие / А. Ю. Козлов, В. С. Мхитарян, В. Ф. Шишов. — М.: ИНФРА-М, 2012. — 320 с., ЭБС Znanium
3. М. Л. Поддубная. Анализ данных. Методические указания по решению задач и выполнению контрольной работы (для студентов, обучающихся по направлению 80 500.62 «Бизнес-информатика», квалификация (степень) бакалавр). — Барнаул: Изд-во АлтГТУ, 2014. — 34 с.