Контрольная работа №2. Математическая статистика
Задача 10. Обработка одномерной выборки
Условие задачи
По выборке одномерной случайной величины:
- получить вариационный ряд;
- построить на масштабно-координатной бумаге формата А4 график эмпирической функции распределения F*(x);
- построить гистограмму равноинтервальным способом;
- построить гистограмму равновероятностным способом;
- вычислить точечные оценки математического ожидания и дисперсии;
- вычислить интервальные оценки математического ожидания и дисперсии (γ = 0,95);
- выдвинуть гипотезу о законе распределения случайной величины и проверить ее при помощи критерия согласия ?2 и критерия Колмогорова (? = 0,05). График гипотетической функции распределения F0(x) построить совместно с графиком F*(x) в той же системе координат и на том же листе.
Необходимая для выполнения задачи выборка, объемом 49 значений одномерной величины, содержится в индивидуальном задании студента.
Методические указания
Генеральной совокупностью опыта называется множество объектов, из которых производится выборка. Выборка – множество случайно отобранных объектов (значений) из генеральной совокупности. Объемом выборки n называется число входящих в нее объектов.
Вариационным рядом называется выборка {}, полученная в результате расположения значений исходной выборки в порядке возрастания. Значения называются вариантами.
Оценка закона распределения
Эмпирическая функция распределения случайной величины X равна частоте того, что X примет значение меньшее, чем аргумент функции x, и определяется формулой
(10.1)
При эмпирическая функция распределения сходится по вероятности к теоретической функции распределения .
Интервальный статистический ряд вероятностей строится по исходной выборке, если анализируемая случайная величина Х является непрерывной, и представляет собой следующую таблицу:
j
|
Aj
|
Bj
|
hj
|
?j
|
|
|
|
1
|
A1
|
B1
|
h1
|
?1
|
|
|
|
|
|
|
|
|
|
M
|
AM
|
BM
|
hM
|
?M
|
|
|
Здесь j – номер интервала;
M – число непересекающихся и примыкающих друг к другу интервалов, на которые разбивается диапазон значений :
(10.2)
где int(x) – целая часть числа x . Желательно, чтобы n без остатка делилось на M;
Aj, Bj – левая и правая границы j-го интервала ( – интервалы примыкают друг к другу), причем ,;
– длина j-го интервала;
? количество чисел в выборке, попадающих в j-й интервал,
– частота попадания в j-й интервал; .
– статистическая плотность вероятности в j-м интервале.
При построения интервального статистического ряда вероятностей используют следующие методы разбиения диапазона значений на интервалы:
1) равноинтервальный, т.е. все интервалы одинаковой длины:
(10.3)
2) равновероятностный, т.е. границы интервалов выбирают так, чтобы в каждом интервале было одинаковое число выборочных значений (необходимо, чтобы n без остатка делилось на M):
(10.4)
Гистограмма строится по интервальному статистическому ряду и представляет собой статистический аналог графика плотности вероятности случайной величины. Гистограмма – совокупность прямоугольников, построенных, как на основаниях, на интервалах hj статистического ряда с высотой, равной статистической плотности вероятности в соответствующем интервале. Для равноинтервального метода все прямоугольники гистограммы имеют одинаковую ширину, а для равновероятностного метода – одинаковую площадь. Сумма площадей всех прямоугольников гистограммы равна 1.
Точечные оценки числовых характеристик
Статистической оценкой параметра Q распределения называется приближенное значение параметра, вычисленное по результатам эксперимента (по выборке). Статистические оценки делятся на точечные и интервальные.
Точечной называется оценка, определяемая одним числом. Точечная оценка параметра Q случайной величины X в общем случае равна , где xi – значения выборки. Очевидно, что оценка – это случайная величина и значения будут изменяться от выборки к выборке случайным образом. К оценкам предъявляется ряд требований.
1. Оценка называется состоятельной, если при увеличении объема выборки n она сходится по вероятности к значению параметра Q:
.
Состоятельность – это минимальное требование к оценкам.
2. Состоятельная оценка называется несмещенной, если ее математическое ожидание точно равно параметру Q для любого объема выборки:
.
3. Состоятельная несмещенная оценка является эффективной, если ее дисперсия минимальна по отношению к дисперсии любой другой оценки этого параметра:
.
Состоятельная, несмещенная и эффективная точечная оценка математического ожидания вычисляется как среднее арифметическое значений выборки , называемое выборочным средним:
(10.5)
Состоятельная несмещенная точечная оценка дисперсии равна
(10.6)
Состоятельная несмещенная точечная оценка среднеквадратического отклонения равна
(10.7)
Интервальные оценки числовых характеристик
Доверительным называется интервал
,
в который с заданной вероятностью (надежностью) g попадает истинное значения параметра Q, где - несмещенная точечная оценка параметра Q. Вероятность g выбирается близкой к 1: 0,9; 0,95; 0,975; 0,99.
Согласно центральной предельной теореме, при достаточно большом объеме выборки n () закон распределения несмещенных точечных оценок и можно считать нормальным при любом законе распределения случайной величины и доверительные интервалы для математического ожидания и дисперсии могут быть определены по следующим формулам.
Доверительный интервал для математического ожидания имеет вид
(10.8)
где - значение аргумента функции Лапласа, т.е. Ф(z?) = .
Доверительный интервал для дисперсии имеет вид
. (10.9)
Проверка статистических гипотез
Статистической гипотезой называется всякое непротиворечивое множество утверждений относительно свойств распределения случайной величины. Простейшей гипотезой является двухальтернативная: . В этом случае альтернативу H0 называют нулевой гипотезой, а H1- конкурирующей гипотезой.
Критерием называется случайная величина , где xi – значения выборки, которая позволяет принять или отклонить нулевую гипотезу . Ошибка первого рода состоит в том, что будет отклонена гипотеза , если она верна («пропуск цели»). Вероятность совершить ошибку первого рода обозначается ? и называется уровнем значимости. Наиболее часто на практике принимают, что ? = 0,05 или ? = 0,01.
Критериями согласия называются критерии, используемые для проверки гипотез о предполагаемом законе распределения.
Гипотеза о законе распределения выдвигается следующим образом.
1. Построить по вариационному ряду график эмпирической функции распределения и гистограммы по интервальным статистическим рядам (равноинтервальному и равновероятностному).
2. По виду графиков выдвинуть двухальтернативную гипотезу о предполагаемом (гипотетическом) законе распределения:
– величина X распределена по такому-то закону:
– величина X не распределена по такому-то закону:
где – плотность и функция распределения гипотетического закона распределения.
График эмпирической функции распределения должен быть похож на график функции распределения гипотетического закона, а гистограммы на график плотности гипотетического распределения . Ниже приведены графики и аналитические выражения плотности и функции распределения для часто встречающихся на практике законов.
Равномерное распределение имеет непрерывная случайная величина Х, если ее плотность вероятности в некотором интервале ?а; b] постоянна:
(10.10)
где а, b – параметры распределения (b > a).
Графики плотности и функции равномерного распределения при a = 1 и b = 3 показаны на рис. 10.1:
Рис. 10.1
Экспоненциальное распределение имеет непрерывная случайная величина T, принимающая только положительные значения, если ее плотность вероятности и функция распределения равны:
(10.11)
где ? – параметр распределения (? >0).
Графики плотности и функции экспоненциального распределения при ? =1 показаны на рис. 10.2:
Рис. 10.2
Нормальное распределение (распределение Гаусса) имеет непрерывная случайная величина Х, если ее плотность вероятности и функция распределения равны:
, , (10.12)
где m, σ – параметры распределения ( σ >0),
— функция Лапласа.
Графики плотности и функции нормального распределения при m =0, σ =1 показаны на рис. 10.3:
Рис. 10.3
3. Вычислить точечные оценки математического ожидания и дисперсии и, используя метод моментов, определить оценки неизвестных параметров гипотетического закона распределения, где – число неизвестных параметров гипотетического закона распределения.
Оценки неизвестных параметров а, b равномерного распределения можно определить по формулам
(10.13)
или
(10.14)
где – первое и последнее значение вариационного ряда соответственно.
Оценку неизвестного параметра ? экспоненциального распределения можно определить по формуле
(10.15)
Оценки неизвестных параметров нормального распределения можно определить по формулам:
(10.16)
4. Проверить гипотезу о предполагаемом законе распределения при помощи критерия согласия.
Критерий согласия Пирсона () – один из наиболее часто применяемых критериев. Алгоритм проверки гипотезы о предполагаемом законе распределения следующий.
1. По интервальному статистическому ряду (равноинтервальному или равновероятностному) вычислить значение критерия по формуле:
, (10.17)
где – объем выборки;
M – число интервалов интервального статистического ряда;
– частота попадания в j-й интервал;
– количество чисел в выборке, попадающих в j-й интервал;
pj – теоретическая вероятность попадания случайной величины в j- й интервал при условии, что гипотеза верна:
. (10.18)
где , – плотность и функция распределения гипотетического закона распределения.
При расчете p1 и pM в качестве крайних границ первого и последнего интервалов A1, BM следует использовать теоретические границы гипотетического закона распределения.
Если проверяется гипотеза о равномерном законе распределения, то , , а гипотетическая функция распределения будет иметь следующий вид (см. (10.10) и (10.14)):
(10.19)
и теоретические вероятности попадания в интервалы будет вычисляться по формуле
(10.20)
Если проверяется гипотеза об экспоненциальном законе распределения, то , , и гипотетическая функция распределения будет иметь вид (см. (10.11) и (10.15)):
(10.21)
а теоретические вероятности попадания в интервалы будет вычисляться по формуле:
(10.22)
Если проверяется гипотеза о нормальном законе распределения, то , , и гипотетическая функция распределения будет иметь вид (см. (10.12) и (10.16)):
(10.23)
а теоретические вероятности попадания в интервалы будет вычисляться по формулам:
(10.24)
При правильном вычислении вероятностей должно выполняется контрольное соотношение .
Величина распределена по закону, который называется распределением . Данное распределение не зависит от закона распределения величины X, а зависит от параметра k, который называется числом степеней свободы.
2. Из таблицы распределения выбирается критическое значение , где a - заданный уровень значимости (a = 0,05 или a = 0,01), а k - число степеней свободы, которое определяется по формуле:
(10.25)
где M – число слагаемых в формуле (10.17), т.е. число интервалов интервального статистического ряда,
s - число неизвестных параметров гипотетического закона распределения, значения (для равномерного закона , экспоненциального , нормального ).
3. Если значение , вычисленное по выборочным данным на шаге 1, больше, чем критическое значение, т.е. , то гипотеза отклоняется, в противном случае нет оснований ее отклонить.
Критерий согласия Колмогорова. Алгоритм проверки гипотезы о предполагаемом законе распределения следующий.
1. На основании эмпирической функции распределения вычислить значение критерия Колмогорова
(10.26)
где – объем выборки;
– максимальный модуль отклонения эмпирической функции распределения от гипотетической функции распределения , определенный по всем n значения xi исходной выборки.
Значение Z с достаточной точностью может быть определено по графикам функций и , которые стоят в одной системе координат на масштабно-координатной бумаге («миллиметровке»). Для построения графика достаточно рассчитать значения функции в 10...20 равноотстоящих точках, которые затем соединить плавной кривой.
Величина λ распределена по закону Колмогорова, который не зависит от закона распределения величины X.
2. Из таблицы распределения Колмогорова выбрать критическое значение , , где a - заданный уровень значимости (a = 0,05 или a = 0,01).
3. Если значение l, вычисленное на шаге 1, больше, чем критическое значение, т.е. l > lg , то гипотеза отклоняется, в противном случае нет оснований ее отклонить.
Примеры
Пример 10.1. По вариационному ряду случайной величины X (n=100):
-6,237 -6,229 -5,779 -5,139 -4,950 -4,919 -4,636 -4,560 -4,530 -4,526 -4,523 -4,511 -4,409 -4,336 -4,259 -4,055 -4,044 -4,006 -3,972 -3,944 -3,829 -3,794 -3,716 -3,542 -3,541 -3,431 -3,406 -3,384 -3,307 -3,181 -3,148 -3,124 -3,116 -2,892 -2,785 -2,734 -2,711 -2,637 -2,633 -2,428 -2,381 -2,339 -2,276 -2,222 -2,167 -2,111 -2,034 -1,958 -1,854 -1,803 -1,774 -1,755 -1,745 -1,713 -1,709 -1,566 -1,548 -1,480 -1,448 -1,353 -1,266 -1,229 -1,179 -1,130 -1,102 -1,060 -1,046 -1,035 -0,969 -0,960 -0,903 -0,885 -0,866 -0,865 -0,774 -0,721 -0,688 -0,673 -0,662 -0,626 -0,543 -0,445 -0,241 -0,174 -0,131 0,115 0,205 0,355 0,577 0,591 0,795 0,986 1,068 1,099 1,195 1,540 2,008 2,160 2,534 2,848
- построить график эмпирической функции распределения ;
- построить гистограмму равноинтервальным способом;
- построить гистограмму равновероятностным способом;
- вычислить точечные оценки математического ожидания и дисперсии;
- вычислить интервальные оценки математического ожидания и дисперсии (γ = 0,95);
- выдвинуть гипотезу о законе распределения случайной величины и проверить ее при помощи критерия согласия и критерия Колмогорова . График гипотетической функции распределения построить совместно с графиком в той же системе координат и на том же листе.
Решение. По формуле (10.1) построим график эмпирической функции распределения (рис. 10.4). Так как является неубывающей функцией и все ступеньки графика имеют одинаковую величину 1/n (или ей кратны – для одинаковых значений), то таблицу значений эмпирической функции распределения F*(x) можно не вычислять, а построить ее график непосредственно по и вариационному ряду, начиная с его первого значения (см. Пример 5.2. ).
Рис. 10.4 Графики эмпирической и гипотетической функций распределения
Количество интервалов M, необходимое для построения гистограмм, определим по объему выборки ( см. формулу (10.2)):
Для равноинтервальной гистограммы величины hj, Aj, Bj, рассчитаем по формуле (10.3) и заполним все колонки интервального статистического ряда (таб. 10.1):
Таблица 10.1
j
|
Aj
|
Bj
|
hj
|
?j
|
|
|
|
1
|
-6,237
|
-5,3345
|
0,9085
|
3
|
0,03
|
0,033
|
2
|
-5,3345
|
-4,426
|
0,9085
|
9
|
0,09
|
0,099
|
3
|
-4,426
|
-3,5175
|
0,9085
|
13
|
0,13
|
0,143
|
4
|
-3,5175
|
-2,609
|
0,9085
|
14
|
0,14
|
0,154
|
5
|
-2,609
|
-1,7005
|
0,9085
|
16
|
0,16
|
0,176
|
6
|
1,7005
|
-0,792
|
0.9085
|
19
|
0,19
|
0,209
|
7
|
-0,792
|
0,1165
|
0,9085
|
12
|
0,12
|
0,132
|
8
|
0,1165
|
1,025
|
0,9085
|
6
|
0,06
|
0,066
|
9
|
1,025
|
1,9335
|
0,9085
|
4
|
0,04
|
0.044
|
10
|
1,9335
|
2,848
|
0,9085
|
4
|
0,04
|
0,044
|
Равноинтервальная гистограмма имеет вид, согласно рис. 10.5:
Рис. 10.5 Равноинтервальная гистограмма
Для равновероятностной гистограммы величины ?j ,, Aj, Bj, рассчитаем по формуле (10.4) и заполним все колонки интервального статистического ряда(таб. 10.2):
Таблица 10.2
j
|
Aj
|
Bj
|
hi
|
?j
|
|
|
|
1
|
-6,2370
|
-4,5245
|
1,7125
|
10
|
0,1
|
0.0584
|
2
|
-4,5245
|
-3,8865
|
0,6380
|
10
|
0,1
|
0,1567
|
3
|
-3,8865
|
-3,1645
|
0,7220
|
10
|
0,1
|
0,1385
|
4
|
-3,1645
|
-2,4045
|
0,7600
|
10
|
0,1
|
0,1316
|
5
|
-2,4045
|
-1,7885
|
0,6160
|
10
|
0,1
|
0,1623
|
6
|
-1,7885
|
-1,3095
|
0,4790
|
10
|
0,1
|
0,2086
|
7
|
-1,3085
|
-0,9319
|
0,3766
|
10
|
0,1
|
0,2655
|
8
|
-0,9319
|
-0,5843
|
0,3476
|
10
|
0,1
|
0,2877
|
9
|
-0,5843
|
0,6932
|
1,2775
|
10
|
0,1
|
0,0783
|
10
|
0,6932
|
2,8480
|
2,1548
|
10
|
0,1
|
0,0464
|
Равновероятностная гистограмма имеет вид, согласно рис. 10.6:
Рис. 10.6 Равновероятностная гистограмма
Вычислим точечную оценку математического ожидания по формуле (10.5):
.
Вычислим точечную оценку дисперсии по формуле (10.6):
.
Построим доверительный интервал для математического ожидания с надежностью γ = 0,95 по формуле (10.8). Для этого в таблице функции Лапласа (см. Приложение 2) найдем значение, равное = 0,475, и определим значение аргумента, ему соответствующее: (строка 1,9, столбец 6). Затем вычислим и получим доверительный интервал для математического ожидания:
.
Построим доверительный интервал для дисперсии с надежностью γ = 0,95 по формуле (10.9). Вычислим и получим доверительный интервал для дисперсии:
.
По виду графика эмпирической функции распределения и гистограмм выдвигаем двухальтернативную гипотезу о законе распределения случайной величины
– величина X распределена по нормальному закону:
,
– величина X не распределена по нормальному закону:
Определим оценки неизвестных параметров m и σ гипотетического (нормального) закона распределения по формулам (10.16):
.
Таким образом, получаем полностью определенную гипотетическую функцию распределения (см. формулу (10.23)):
.
Проверим гипотезу о нормальном законе с помощью критерия .
Вычислим значение критерия на основе равноинтервального статистического ряда (см. таб. 10.1) по формуле (10.17):
Теоретические вероятности pi попадания в интервалы равноинтервального статистического ряда нормальной случайной величины с параметрами вычислим по формуле (10.24):
.
Значения функции Лапласа определяем с помощью таблицы, приведенной в Приложение 2. При использовании таблицы функции Лапласа следует учитывать, что . Результаты расчета можно свести в таблицу:
Таблица 10.3
j
|
Aj
|
Bj
|
|
|
|
|
|
|
1
|
-∞
|
-5,335
|
0
|
0,0336
|
0,0336
|
0,03
|
0
|
2
|
-5,335
|
-4,426
|
0,0336
|
0,0708
|
0,0372
|
0,09
|
0,0625
|
3
|
-4,426
|
-3,518
|
0,0708
|
0,1768
|
0,106
|
0,13
|
0,003636
|
4
|
-3,518
|
-2,609
|
0,1768
|
0,3228
|
0,146
|
0,14
|
0,000667
|
5
|
-2,609
|
-1,701
|
0,3228
|
0,5
|
0,1772
|
0,16
|
0,000588
|
6
|
1,7005
|
-0,792
|
0,5
|
0,6772
|
0,1772
|
0,19
|
0,000556
|
7
|
-0,792
|
0,1165
|
0,6772
|
0,8212
|
0,144
|
0,12
|
0,002857
|
8
|
0,1165
|
1,025
|
0,8212
|
0,9162
|
0,095
|
0,06
|
0,01
|
9
|
1,025
|
1,9335
|
0,9162
|
0,989
|
0,0728
|
0,04
|
0,012857
|
10
|
1,9335
|
+∞
|
0,989
|
1
|
0,011
|
0,04
|
0,02
|
|
|
|
|
Сумма:
|
0,999
|
1
|
0,113661
|
Проверяем выполнение контрольного соотношения для :
В результате получаем .
Вычислим число степеней свободы по формуле (10.25) и по заданному уровню значимости ? =0,05 из таблицы распределения (см. Приложение 4) выбираем критическое значение .
Так как то гипотеза о нормальном законе распределения принимается (нет основания ее отклонить).
Проверим гипотезу о нормальном законе с помощью критерия Колмогорова. Построим график в одной системе координат с графиком эмпирической функции распределения (см. рис 10.1). В качестве опорных точек для графика используем 10 значений из таб. 10.3.
По графику определим максимальное по модулю отклонение между функциями и (см. рис 10.1):
Вычислим значение критерия Колмогорова по формуле (10.26):
Из таблицы Колмогорова (см. Приложение 5) по заданному уровню значимости ? =0,05 выбираем критическое значение
Так как , то гипотезу о нормальном законе распределения отвергать нет основания.
|