Статистический анализ зарегистрированных абонентских терминалов сотовой связи

КурсоваяПомощь в написанииУзнать стоимостьмоей работы

Математическая статистика — наука, изучающая методы раскрытия закономерностей, свойственных большим совокупностям однородных объектов, на основании их выборочного обследования. Задачей математической статистики является построение методов оценки вероятности или принятия решений о характере событий на основе статистических данных. Математическая статистика делится на статистику чисел, многомерный… Читать ещё >

Статистический анализ зарегистрированных абонентских терминалов сотовой связи (реферат, курсовая, диплом, контрольная)

Московский Государственный Строительный Университет Институт фундаментального образования Факультет общенаучных кафедр

Курсовая работа по дисциплине:

«Теория вероятности и математическая статистика»

Выполнил:

Студент ИФО 3−2

Плаксина С.С.

Проверила:

Доцент Кирьянова Л.В.

Москва 2011

Задача.

Провести первичную обработку статистических данных по количеству зарегистрированных абонентских терминалов сотовой связи за 2008 год на 1000 населения в регионах России. Сделать выводы.

Решение.

Первая часть

ЧИСЛО АБОНЕНТСКИХ ТЕРМИНАЛОВ СОТОВОЙ СВЯЗИ на 1000 человек населения ПО СУБЪЕКТАМ РОССИЙСКОЙ ФЕДЕРАЦИИ (на конец года; штук) 2008 год.


Белгородская область	1211,9	Кабардино-Балкарская Республика	956,7	Челябинская область	1522,1
Брянская область	1103,6	Республика Калмыкия		Республика Алтай	1006,2
Владимирская область	1343,2	Карачаево-Черкесская Республика	1203,1	Республика Бурятия
Воронежская область	983,1	Республика Северная Осетия — Алания	1027,6	Республика Тыва	916,2
Ивановская область	1400,9	Чеченская Республика	812,5	Республика Хакасия	1408,6
Калужская область	1420,4	Краснодарский край	1417,4	Алтайский край	1125,1
Костромская область		Ставропольский край	1109,3	Забайкальский край	1018,9
Курская область	1217,5	Астраханская область	1490,1	Красноярский край	1385,9
Липецкая область	1106,5	Волгоградская область	1296,8	Иркутская область	1505,7
Орловская область		Ростовская область	1100,2	Кемеровская область
Рязанская область	1400,5	Республика Башкортостан		Новосибирская область	1337,9
Смоленская область	1532,2	Республика Марий Эл	1313,5	Омская область	1244,1
Тамбовская область	1209,6	Республика Мордовия	1287,7	Томская область	1232,2
Тверская область	1483,4	Республика Татарстан	1366,3	Республика Саха (Якутия)	957,2
Тульская область	1237,3	Удмуртская Республика		Камчатский край	1421,1
Ярославская область		Чувашская Республика	1299,8	Приморский край
г. Москва и Московская область	1972,1	Пермский край	1335,2	Хабаровский край	1315,6
Республика Карелия	1462,1	Кировская область	1152,5	Амурская область	1295,9
Республика Коми	1495,4	Нижегородская область		Магаданская область	1370,6
Архангельская область	1476,2	Оренбургская область	1215,5	Сахалинская область	1329,9
Вологодская область	1523,1	Пензенская область	1267,6	Еврейская автономная область	730,5
Калининградская область	1581,2	Самарская область	1570,3	Чукотский автономный округ	767,8
Мурманская область	1790,1	Саратовская область	1317,1
Новгородская область	1546,6	Ульяновская область	1361,4
Псковская область	1404,7	Курганская область	1180,6
г. Санкт-Петербург и Ленинградская область	1863,4	Свердловская область	1285,9
Республика Адыгея	707,4	Тюменская область	1528,8
Республика Дагестан		Ханты-Мансийский автономный округ — Югра
Республика Ингушетия	877,5	Ямало-Ненецкий автономный округ	1732,9

Теория

Объем выборки — это количество проведенных измерений или наблюдений.

Вариационный ряд — это упорядоченные по возрастанию числовые значения элементов выборки.

Статистическая совокупность — это совокупность предметов или явлений, объединенных каким-либо общим признаком.

Генеральная совокупность — это совокупность объектов или явлений, все элементы которой подлежат изучению при статистическом анализе.

Выборочная совокупность (выборка) — это множество результатов наблюдений, случайно отобранных из генеральной совокупности.

Размах выборки — это разность

где выбранные точки называются экстремальными значениями (только для отсортированных данных).

Интервалом варьирования называется промежуток между экстремальными значениями. Составим интервальную таблицу частот. Обычно число интервалов группировки рассчитывают по формуле Стерджеса:

Ширина интервала равна:

Частота — это число, равное количеству элементов, попавших в данный интервал. Сумма всех частот должна равняться объему выборки:

Относительная частота — это отношение частоты к объему выборки, т. е. .

Относительная накопленная частота — это отношение количества элементов, оказавшихся меньше какого-то определенного значения, к объему выборки.

Расчет


n=80	x max=1972,1	x min=707,4

Запишем число интервалов группировки по формуле Стёрджеса Ширина интервала равна Частоту посчитаем как количество значений, попавших в каждый интервал.

Относительную частоту возьмем по формуле, то есть отношение частоты к объему выборки.

Накопленная частота — это отношение количества элементов, оказавшихся меньше какого-то определенного значения, к объему выборки.

Таблица сгруппированных данных:


№	интервал	X-сер.инт.	частоты	отн.част.
	[707,4; 888,07)	797,736		0,0625
	[888,07; 1068,74)	978,407		0,1
	[1068,74; 1249,41)	1159,079		0,2375
	[1249,41; 1430,09)	1339,750		0,35
	[1430,09; 1610,76)	1520,421		0,2
	[1610,76; 1791,43)	1701,093		0,025
	[1791,43; 1972,10)	1881,764		0,025

Представим эти данные графически с помощью гистограммы и полигона частот.

Гистограмма — это способ графического представления табличных данных некоторого показателя в виде прямоугольников, площади которых пропорциональны. При построении гистограммы мы на каждом интервале строим прямоугольник площадью, то есть высота прямоугольника. Таким образом, общая площадь равна единице. С увеличением объема выборки и уменьшением длины интервала гистограмма будет приближаться к кривой плотности распределения, поэтому гистограмму используют в качестве оценки для плотности распределения.

Полигон частот — это ломаная, концы отрезков которой имеют координаты .

Выборочные характеристики.

Выборочное (эмпирическое) среднее.

1285,55

Выборочная медиана Это значение признака, приходящееся на середину вариационного ряда.

Медиану, как меру средней величины, используют в том случае, если крайние члены вариационного ряда по сравнению с остальными, оказались чрезмерно большими или малыми.

Выборочная мода

Это выборочное значение, которому соответствует наибольшая частота. Моду легко найти графическим путем с помощью гистограммы. В моем случае:

Выборочная (эмпирическая) дисперсия Выборочное среднеквадратическое отклонение Это арифметический квадратный корень из выборочной дисперсии

Эмпирический коэффициент асимметрии

- 0,0725

Если, то распределение имеет симметричную форму.

Если ,то распределение имеет положительную (правостороннюю) асимметрию.

Если (мой случай), то распределение имеет отрицательную (левостороннюю) асимметрию.

Эмпирический эксцесс

0,162

Если (мой случай), то полигон вариационного ряда имеет более крутую вершину по сравнению с нормальной кривой.

Если, то полигон вариационного ряда имеет более пологую вершину по сравнению с нормальной кривой.

Интервальное оценивание параметров

статистический регрессионный интервальный Доверительный интервал Это статистическая оценка параметра вероятностного распределения, имеющая вид интервала, границами которого служат функции от результатов наблюдений и который с высокой вероятностью «накрывает» неизвестный параметр.

При этом вероятность называют доверительной вероятностью или уровнем надежности.

Величину называют нижней доверительной границей, аналогично — верхняя доверительная граница.

Если установить большое значение уровня надежности, то доверительный интервал будет шире, и увеличится «уверенность» в оценке, и наоборот. Ширина доверительного интервала также зависит от объема выборки и «степени разброса» наблюденных значений.

Различают два вида задания доверительных границ:

1. Симметрично относительно оценки параметра, т. е.

где — величина абсолютной погрешности или предельная ошибка.

Для симметричного относительно точечной оценки интервала величина абсолютной погрешности оценивания равна половине доверительного интервала.

2. Из условия равенства вероятностей выхода за верхнюю и нижнюю границу, т. е.

В общем случае, тогда предельная ошибка выборки равна наибольшему отклонению выборочного значения параметра от его истинного значения.

Интервальная оценка для математического ожидания нормального распределения при известной дисперсии.

Для использования этой оценки на практике требуется, чтобы распределение генеральной случайной величины было нормальным и параметрами, либо, чтобы объем выборки был достаточно велик. Тогда — доверительный интервал имеет вид:

где — квантиль стандартного нормального распределения уровня , — выборочное среднее.

Интервальная оценка для математического ожидания нормального распределения при неизвестной дисперсии (мой случай).

Если дисперсия неизвестна, то ее заменяют на оценку:

Поэтому симметричный — доверительный интервал будет иметь вид:

Зададим уровень доверия. Тогда. Имея формулу

108,76

и получаем доверительный интервал для нашего случая: (1261,72; 1309,38)

Это означает, что вероятность нахождения математического ожидания в данном интервале равна уровню доверия:

Отметим так же, что если, распределение Стьюдента близко к нормальному и можно пользоваться таблицами нормального распределения.

Интервальная оценка для среднеквадратического отклонения нормального распределения.

В этом случае эффективной оценкой дисперсии является статистика Тогда — доверительный не симметричный интервал будет иметь вид:

где — квантиль уровня распределения с степенью свободы, — квантиль уровня распределения с степенью свободы.

Если же математическое ожидание — неизвестно (мой случай), то количество степеней свободы уменьшается на, и доверительный интервал имеет вид Здесь — это квантиль уровня распределения степенями свободы и — это квантиль уровня распределения степенями свободы. Берем 100,74 862 и 59,52 295. Тогда наш доверительный интервал будет: (96,31; 125,30)

Гипотеза о виде распределения

Предположим, что наша выборка имеет нормальное распределение. Проверим эту гипотезу с помощью критерия согласия — критерия (Пирсона).

Проверка этой гипотезы состоит из следующих пунктов:

1. Воспользуемся ранее составленным разбиением диапазона значений случайной величины на интервалы, но при этом объединим последние 2 интервала, так как в них попало достаточно мало значений в сравнении с подсчитанным числом наблюдений, попавших в каждый интервал.

2. Предположив справедливость основной гипотезы, подсчитаем вероятность попадания в каждый интервал:

3. Примем следующие значения для :


№	интервал	частоты	Рi	(ni-npi)^2/(npi)	ч²(m-k-1)
	[707,4; 888,07)		0,0365	1,096	4,207
	[888,07; 1068,74)		0,1335	1,189
	[1068,74; 1249,41)		0,3424	1,607
	[1249,41; 1430,09)		0,2197	0,685
	[1430,09; 1610,76)		0,1835	0,579
	[1610,76; 1972,10)		0,0789	0,078

4. Задавшись уровнем значимости, строят критическую область, используя предельную теорему: при выполнении основной гипотезы распределение статистики критерия сходится к — распределению с степенью свободы.

5. Если значение статистики критерия меньше критического значения, т. е.

у нас

Сформулируем задачи статистического анализа

· Задачи регрессионного анализа — задачи, связанные с установлением аналитических зависимостей между переменным Y и одним или несколькими переменными .

В этой части работы я проведу исследование влияния всех имеющихся у нас факторов на количество абонентских терминалов сотовой связи.

Регрессионный анализ — частный случай статистической зависимости и подразумевает зависимость среднего значения величины Yот другой величины Х (одномерной или многомерной).Методы множественного анализа позволяют решать задачу исследования зависимости одной переменной Y от нескольких переменных X₁, X₂,…,X_k. Для построения уравнения множественной регрессии чаще используют функции:

1) — линейную;

2) — гиперболическую;

3) — степенную;

4) — экспоненту.

Можно использовать и другие функции, приводимые к линейному виду.

Выбрать форму связи между переменными довольно сложно. Эта задача на практике основывается на априорном теоретическом анализе изучаемого явления. Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов. Рассмотрим более подробно линейное уравнение множественной регрессии. Если связь между результирующим признаком и анализируемыми факторами нелинейная, то она может быть сведена к линейной путём линеаризации (с помощью замены переменной). Если ввести в рассмотрение матрицы:

то систему нормальных уравнений можно записать в матричном виде:. Решением последней системы является вектор — столбец:

Для того, чтобы установить, соответствует ли выбранная регрессионная модель экспериментальным данным, используют критерий Фишера. По заданному уровню значимости находят критическое значение распределения Фишера при числе степеней свободы. Если значение статистики

F=>,

то уравнение считают значимым (т.е. соответствующим экспериментальным данным на уровне). При этом выборочная остаточная дисперсия (с её помощью оценивают неучтённые в модели случайные факторы) будет равна:

Среднеквадратическое отклонение коэффициента регрессии равно:

(здесь — диагональный элемент матрицы).

Соответствующий коэффициент уравнения регрессии считают значимым, если, где — критическое значение распределения Стьюдента, определённое на уровне доверия = 1 (где — уровень значимости) при числе степеней свободы, равном nk 1 (т.е. квантиль уровня распределения Стьюдента с nk 1 степенями свободы).

Доверительный интервал для истинного коэффициента имеет вид: .

Доверительный интервал для значения случайной величины Y имеет вид:


Центральный федеральный округ	x1	x2	х3	х4	у
Белгородская область			12 757,9	276,3	1211,9
Брянская область		59,4	10 042,6	253,8	1103,6
Владимирская область		76,6	9596,2	252,6	1343,2
Воронежская область		68,8	10 304,8	417,1	983,1
Ивановская область		61,4	8353,8	221,8	1400,9
Калужская область		63,2	11 755,9	311,7	1420,4
Костромская область		60,9	9413,2	516,9
Курская область		49,5		241,9	1217,5
Липецкая область		68,8	12 274,4	302,7	1106,5
Московская область и г. Москва		93,3		264,8	1972,1
Орловская область		58,8	9814,5
Рязанская область		72,9	11 311,3	287,6	1400,5
Смоленская область		50,9	11 522,7	313,7	1532,2
Тамбовская область		61,8	11 252,8	284,8	1209,6
Тверская область		70,2		236,2	1483,4
Тульская область		63,5	11 388,5	294,1	1237,3
Ярославская область		75,5	12 587,2	276,6
Северо-Западный федеральный округ
Республика Карелия		89,9	12 228,6	299,6	1462,1
Республика Коми			18 636,4	308,2	1495,4
Архангельская область		80,4	14 823,6	279,2	1476,2
Вологодская область			12 193,5	284,7	1523,1
Калининградская область			12 922,3	265,5	1581,2
Мурманская область			18 773,2	326,1	1790,1
Новгородская область		76,5	11 645,6	325,1	1546,6
Псковская область		68,5	10 290,9	301,8	1404,7
г. Санкт-Петербург и Ленинградская область		95,8		432,7	1863,4
Южный федеральный округ
Республика Адыгея		81,5	7986,3	235,4	707,4
Республика Дагестан		76,5		82,3	930,0
Республика Ингушетия			5512,9	37,5	877,5
Кабардино-Балкарская Республика		69,9	8589,3	10,9	956,7
Республика Калмыкия		56,2	5651,2	213,9	1255,0
Карачаево-Черкесская Республика		57,2	8676,1	236,5	1203,1
Республика Северная Осетия — Алания		67,9	9837,7	228,8	1027,6
Чеченская Республика		45,8	…	293,6	812,5
Краснодарский край		84,5	12 023,9	256,3	1417,4
Ставропольский край		87,5	9952,5	251,5	1109,3
Астраханская область		72,8	11 120,4	264,9	1490,1
Волгоградская область		69,4	10 866,4		1296,8
Ростовская область			12 160,5	256,1	1100,2

Шаг 1


ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,796 435 939
R-квадрат	0,634 310 205
Нормированный R-квадрат	0,591 287 876
Стандартная ошибка	176,8 575 146
Наблюдения

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия		1 844 653,538	461 163,3845	14,74 374 404	4,40742E-07
Остаток		1 063 471,736	31 278,58048
Итого		2 908 125,274
	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	581,3 210 031	196,6 962 844	2,955 424 425	0,5 637 418
Переменная X 1	— 0,35 268 095	0,18 433 848	— 1,913 224 813	0,64 170 699
Переменная X 2	0,481 742 142	2,903 126 362	0,165 939 088	0,869 187 718
Переменная X 3	0,46 016 513	0,9 465 295	4,861 603 493	2,59455E-05
Переменная X 4	0,80 898 839	0,341 120 441	2,371 562 333	0,23 518 416

Исходя из полученных данных, а именно:

Множественный R близок к 1 (0.796),

F больше Fкр (14,74>2.87) -мы можем сделать вывод о значимости нашего уравнения регрессии.

Далее, используя распределение Стьюдента, находим критическую точку, которая определяет какие из переменных Х нам необходимо отсеять. В нашем случае t-статистика должна по модулю быть больше 2,03. Отсеиваем переменные Х1 и Х2 и для повышения точности анализа повторяем расчет.

Шаг 2


ВЫВОД ИТОГОВ

Регрессионная статистика
Множественный R	0,771 318 015
R-квадрат	0,59 493 148
Нормированный R-квадрат	0,572 427 673
Стандартная ошибка	180,8 920 797
Наблюдения

Дисперсионный анализ
	df	SS	MS	F	Значимость F
Регрессия		1 730 135,272	865 067,6361	26,43 692 633	8,62011E-08
Остаток		1 177 990,002	32 721,9445

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение
Y-пересечение	670,6 745 952	103,9 132 726	6,454 176 432	1,72536E-07
Переменная X 3	0,32 798 818	0,5 519 879	5,941 945 079	8,30834E-07
Переменная X 4	0,936 914 637	0,342 066 894	2,738 980 751	0,9 523 646

Множественный R близок к 1 (0.77),

F больше Fкр (26,44>4,1) -уравнение регрессии значимое.

t-статистика должна по модулю быть больше 2,028, значит теперь все оставшиеся переменные Х нам подходят, так как по модулю их t-статистики больше нашего значения.

Будем учитывать в регрессионном анализе только значимые коэффициенты, .

Тогда уравнение множественной регрессии примет вид:

Вывод

Мы выяснили, что количество населения и количество организаций, использующих интернет, не влияют на количество абонентских терминалов сотовой связи в регионах РФ. Наибольшее же влияние, что логично, оказывают денежные доходы населения.

1. Э. Леман «Проверка статистических гипотез», Москва, 1979

2. В. Е. Гмурман «Руководство к решению задач по теории вероятности и математической статистике», Москва, «Высшая школа», 2001

3. Н. И. Чернова «Математическая статистика, пособие», Новосибирск, 2007

4. Г. И. Ивченко, Ю. И. Медведев «Математическая статистика», Москва «Высшая школа», 1984

Показать весь текст

Заполнить форму текущей работой