Электронная библиотека >> Теория вероятностей и математическая статистика

3.7.2. Критерий Пирсона

Критерий Пирсона или критерий c² (хи - квадрат) имеет наибольшее применение при проверке согласования теоретической и эмпирических кривых распределения. Наблюдаемое значение критерия вычисляется по следующей формуле:

, (3.31)

где - эмпирическая частота i-го интервала (варианта);

- теоретическая частота i-го интервала (варианта);

ℓ- число интервалов (вариантов).

Как известно, c² - распределение зависит от числа степеней свободы, это число находится по формуле:

, (3.32)

где r - число неизвестных параметров предполагаемого теоретического закона, использованных для вычисления теоретических частот и оцениваемых по выборке.

По теоретическим соображениям при расчете не следует исходить из слишком малых значений . Поэтому рекомендуется объединять соседние интервалы (варианты) таким образом, чтобы > (510) для объединенных интервалов. Кроме того, объем выборки должен быть достаточно велик (n ³ 50) и .

В случае нормального закона распределения расчет теоретической кривой распределения j(x) производится при условии, что статистические характеристики приравниваем числовым характеристикам нормального закона (m; s), поэтому r = 2 и число степеней свободы n = -3.

Вероятности попадания случайной величины X в соответствующие интервалы вычисляется по интегральной теореме Лапласа:

, (3.33)

где ; .

В случае биномиального закона распределения расчет теоретической кривой распределения производится при условии, что статистическая доля (частость) приравнивается вероятности p появления интересующего нас события А, поэтому r = 1 и число степеней свободы n = -2.

Вероятность p_i того, что случайная величина X принимает значение x_i = m, где , определяется по формуле Бернулли:

, (3.34)

где - средняя частость проявления появления события во всех k выборках;

n - число испытаний в каждой выборке.

В случае закона Пуассона расчет теоретической кривой распределения производится при условии, что средняя интенсивность приравнивается математическому ожиданию M(x), поэтому r = 1 и n = -2.

Вероятность p_i того, что случайная величина X принимает значение x_i = m, определяется по формуле Пуассона:

, (3.35)

где - средняя интенсивность.

m_i - частота появления значения х_i; i=1, 2, ... , к.

При проверке гипотез о виде законов распределения могут быть использованы и другие критерии согласия: Колмогорова, Романовского, Ястремского и др.

Пример 3.5. По данным таблицы рассчитать теоретические частоты в предположении нормального закона распределения; результаты вычислений приводятся в следующей таблице.

Интервалы	3,65-3,75	3,75-3,85	3,85-3,95	3,95-4,05	4,05-4,15	4,15-4,25	4,25-4,35
	1	6	11	15	9	6	2
	2	5	11	14	11	5	2

На уровне значимости 0,05 проверить гипотезу о нормальном законе распределения.

Решение. Вычисляем наблюдаемое значение критерия по формуле (3.31). Результаты вычислений представим в виде таблицы.

Интервалы
3,65-3,75 3,75-3,85			0	0
3,85-3,95	11	11	0	0
3,95-4,05	15	14	1
4,05-4,15	9	11	4
4,15-4,25 4,25-4,35			1
å	50	50	-	= 0,578

По таблице c² - распределения на уровне значимости 0,05 и числе степеней свободы n = -3 = 5 - 3 = 2 определим = 5,991. Так как = 0,578 < = 5,991, нулевая гипотеза H₀ не отвергается, т.е. производительность труда для данной совокупности подчиняется нормальному закону распределения.

Пример 3.6. Даны следующие числа рождения мальчиков у 50 матерей, родивших четыре раза:

3	1	0	2	1	2	1	3	3	3
2	3	2	2	1	2	1	3	2	3
3	0	1	1	2	2	1	0	3	2
0	2	2	2	3	3	2	4	3	3
2	1	1	2	2	3	3	2	3	4

Проверить на уровне 0,01 гипотезу о биноминальном законе распределения.

Решение. Всего 50 матерей родили N = k×n = 50×4 = 200 детей. Случайной величиной X является число мальчиков в семьях из 4 детей. Построим вариационный ряд:

x_i	0	1	2	3	4	å
	4	10	18	16	2	50

Эмпирическими частотами являются числа матерей, родивших определенное число мальчиков.

Рассчитаем среднюю частоту рождения мальчика:

По формуле (3.34) вычислим вероятности комбинаций рождения мальчика (и девочки) в семьях из 4 детей:

m = 0; ;

m = 1; ;

m = 2; ;

m = 3; ;

m = 4; .

Итого: .

Теоретические частоты равны = k×p_i. Рассчитаем наблюдаемое значение критерия .

x_i
0 1			1
2	18	19	1
3 4			1
å	50	50	-	= 0,370

По таблице c² - распределения на уровне значимости a = 0,01 и при числе степеней свободы n = -2 = 3 - 2 = 1 определяем = 6,635.

Так как = 0,370 < = 6,635, нулевая гипотеза не отвергается, т.е. число мальчиков в семье из 4 детей данной совокупности подчиняется биноминальному закону распределения.

Пример 3.7. Число рабочих, не выполнивших сменного задания в 100 выборках по 20 рабочих, приводится в таблице:

Число рабочих x_i

Число выборок m_i

На уровне значимости 0,05 проверить гипотезу о законе Пуассона.

Решение. Определяем среднюю интенсивность числа рабочих, не выполнивших сменного задания, на одну выборку:

По таблице определяем .

По формуле (3.35) вычисляем вероятности:

;

Вычисляем наблюдаемое значение критерия:

x_i
0	85	82	9
1	11	16	25
2 3			4
å	100	100	-	= 3,671

По таблице c² - распределения на уровне значимости 0,05 и при числе степеней свободы n = l-2 = 3 - 2 = 1 определяем = 12,706.

Так как (= 3,671) < (= 12,706), нулевая гипотеза H₀не отвергается, т.е. число рабочих, не выполнивших сменного задания, подчиняется закону Пуассона.

Таблица 3.1

Основные формулы, используемые при проверке гипотез о значении параметров распределений

№ пп	H₀	Условия проверки	Используемое распределение	Формулы для вычисления наблюдаемого значения параметров	H₁	Порядок определения критического значения критериев	Правила проверки
1	2	3	4	5	6	7	8
		s²	Ф(t)		m₁<m₀; m_1>m₀	(1-2a)®t_кр	отвергается
		известна			m₁¹m₀	(1-a)®t_кр	с вероятностью ошибки a
1	m=m₀	s²не	S(t)		m₁<m₀; m_1>m₀
		известна			m₁¹m₀
			Ф(t)		m_x<m_y; m_x>m_y	(1-2a)®t_кр	не отвергается
2	m_X=m_Y	известны			m_x¹m_y	(1-a)®t_кр
		не известны, но =	S(t)		m_x<m_y; m_x>m_y
					m_x¹m_y
							не отвергается
3			c²				® H₀ не отвергается При или ® H₀ отвергается
							не отвергается
4			F				не отвергается
5		n₁ ¹ n₂ ¹ ... ... ¹ n_i > 4	c²				не отвергается
		n₁ = n₂ = ... ... =	G				не отвергается
6	p₁ = p₂ = ... = p	n ®¥	c²				не отвергается

Тест

1. Что называют ошибкой первого рода:

а) Гипотеза H₀ верна и ее принимают согласно критерию;

б) Гипотеза H₀ верна и ее отвергают согласно критерию;

в) Гипотеза H₀ не верна и ее отвергают согласно критерию;

г) Гипотеза H₀ не верна и ее принимают согласно критерию.

2. Что называют мощностью критерия:

а) Вероятность, с которой статистика критерия должна попасть в критическую область, если верна гипотеза H₀;

б) Вероятность, с которой статистика критерия должна попасть в критическую область, если верна гипотеза H₁;

в) Вероятность, с которой статистика критерия должна попасть в область принятия гипотезы, если верна гипотеза H₀;

г) Вероятность, с которой статистика критерия должна попасть

в область принятия гипотезы, если верна гипотеза H₁.

3. Когда при проверке гипотезы H₀ : m = m₀ против H₁ : m = m₁ следует выбрать правостороннюю критическую область:

а) H₁ : m₁ < m₀;

б) H₁ : m₁ > m₀;

в) H₁ : m₁ ¹m₀;

г) H₁ : m₁ = m₀.

4. Пусть статистика критерия имеет нормальное распределение. Какое условие является исходным для расчета значения границы правосторонней критической области: