Фиктивные переменные сдвига
В этом случае зависимая переменная рассматривается как функция не только цены, но и пола. Переменная рассматривается как бинарная переменная, принимающая всего два значения: 1 и 0. Модель может содержать несколько качественных признаков. В этом случае фиктивные переменные для каждого признака вводятся в соответствии с вышеприведенной методикой Пример 12. Коэффициенты показывают сдвиг в объеме… Читать ещё >
Фиктивные переменные сдвига (реферат, курсовая, диплом, контрольная)
Рассмотрим следующую ситуацию: по группе лиц мужского и женского пола изучается линейная зависимость потребления зеленого чая от цены. Можно найти уравнения отдельно для лиц мужского и женского пола, а можно использовать общую совокупность данных и построить модель с включением в него фактора «пол» в виде фиктивной переменной :
.
В этом случае зависимая переменная рассматривается как функция не только цены, но и пола. Переменная рассматривается как бинарная переменная, принимающая всего два значения: 1 и 0.
=.
тогда уравнение для лиц женского пола можно записать:
а для лиц мужского пола:, где показывает сдвиг в потреблении чая мужчинами по сравнению с женщинами.
Иными словами, различия в потреблении для лиц мужского и женского пола вызваны различиями свободных членов уравнения регрессии.
На основе МНК находим параметры модели с фиктивной переменной и проведем проверку на статистическую значимость. Статистическая значимость коэффициента при фиктивной переменной будет свидетельствовать о различии в потреблении чая между мужчинами и женщинами.
Если рассматриваемый качественный признак имеет не два, а несколько значений, то можно было бы ввести дискретную переменную, принимающую столько же значений. Обычно это не делается из-за трудности содержательной интерпретации коэффициента перед этой переменной. В этом случае целесообразно введение бинарных фиктивных переменных, где — число значений качественного признака.
Предположим, что изучается потребление чая не только от цены, но и региона проживания: северные регионы, центральные и южные. В этом случае разбиваем все данные на три категории, одну из которых, например, центральные регионы считаем эталонной. Вводим две фиктивные переменные и :
Запишем линейную регрессионную модель: .
Коэффициенты показывают сдвиг в объеме потребления чая в соответствующих регионах по отношению к потреблению чая в центральных регионах.
Сформулируем методику построения модели с фиктивными переменными:
- 1. Разбиваем статистические данные на категории, число которых определяется числом градаций качественного признака. Одну из категорий принимаем за эталонную (выбирается произвольно).
- 2. Вводим фиктивные переменные для всех категорий, кроме эталонной. Каждая из введенных фиктивных переменных принимает значение, равное единице для данных рассматриваемой категории и нуль для данных остальных категорий.
- 3. Фиктивные переменные вводятся в уравнение с коэффициентом
.
где — число категорий. Каждый из коэффициентов характеризует сдвиг значения результативного показателя для данных — ой категории относительно эталонной. Если оказывается статистически значимым, то фактор (событие), выражаемое этой фиктивной переменной оказывает существенное влияние на результативный показатель.
Модель может содержать несколько качественных признаков. В этом случае фиктивные переменные для каждого признака вводятся в соответствии с вышеприведенной методикой Пример 12.
Предположим, что изучается потребление чая в зависимости от цены, пола и региона проживания: северные регионы, центральные и южные.
Статистические данные приведены в таблице 21.
Таблица 21
N. | Потребл.(кг). | Цена (тыс. сом). | Пол. | северн. регион. | Южн. регион. | N. | Потребл. (кг). | Цена (тыс. сом). | Пол. | северн. регион. | Южн. регион. |
Y. | x. | z. | R1. | R2. | Y. | x. | z. | R1. | R2. | ||
0,2. | 0,6. | 0,6. | |||||||||
0,4. | 0,6. | 0,5. | |||||||||
0,4. | 0,8. | 0,65. | 0,5. | ||||||||
0,6. | 0,8. | 0,6. | 0,3. | ||||||||
0,6. | 0,6. | 0,7. | 0,3. | ||||||||
0,8. | 0,6. | 0,5. | |||||||||
0,75. | 0,5. | 0,6. | |||||||||
0,9. | 0,5. | 0,7. | 0,8. | ||||||||
0,9. | 0,3. | 0,9. | 0,8. | ||||||||
1,1. | 0,3. | 0,9. | 0,6. | ||||||||
0,2. | 1,1. | 0,6. | |||||||||
0,45. | 0,5. | ||||||||||
0,45. | 0,8. | 1,2. | 0,5. | ||||||||
0,6. | 0,8. | 1,2. | 0,3. | ||||||||
0,5. | 0,6. | 1,4. | 0,3. |
Вводим фиктивную бинарную переменную для признака «пол» и две бинарные переменные для регионов проживания.
Линейная регрессионная модель запишется:
.(6.1).
Коэффициент показывает сдвиг в потреблении чая мужчинами относительно женщин, а коэффициенты соответственно показывают сдвиг в объеме потребления чая в северных и южных регионах относительно центрального региона Найдем параметры модели на основе «Пакета анализа» EXCEL.
Уравнение регрессии:
2,76.
Следовательно, уравнение статистически значимо в целом с вероятностью 95%.
Значения коэффициентов. | Стан. ошибка. | t-стат. | P-Значение. |
1.26. | 0.07. | 19.26. | 0.000. |
— 0.84. | 0.08. | — 10.30. | 0.000. |
— 0.11. | 0.04. | — 2.88. | 0.008. |
— 0.13. | 0.05. | — 2.70. | 0.012. |
0.29. | 0.05. | 5.91. | 0.000. |
Так как P — значение для всех параметров менее, то они статистически значимы. Следовательно, потребление чая существенно зависит от цены, пола и проживания в определенном регионе.
Можно построить отдельные уравнения для мужчин и женщин и каждого региона.
Тип категории. | уравнение. |
Женщины (северные регионы). | |
Мужчины (северные регионы). | |
Женщины (центральные регионы). | |
Мужчины (центральные регионы). | |
Женщины (южные регионы). | |
Мужчины (южные регионы). |
В этих уравнениях различны только свободные члены, угол наклона всех прямых одинаков (одинаковый коэффициент перед переменной «цена»).