Теория вероятностей и математическая статистика




Скачать 2.04 Mb.
страница 8/9
Дата 27.09.2016
Размер 2.04 Mb.
1   2   3   4   5   6   7   8   9

Контрольная работа №2. Математическая статистика

Задача 10. Обработка одномерной выборки

Условие задачи

По выборке одномерной случайной величины:

- получить вариационный ряд;

- построить на масштабно-координатной бумаге формата А4 график эмпирической функции распределения F*(x);

- построить гистограмму равноинтервальным способом;

- построить гистограмму равновероятностным способом;

- вычислить точечные оценки математического ожидания и дисперсии;

- вычислить интервальные оценки математического ожидания и дисперсии (γ = 0,95);

- выдвинуть гипотезу о законе распределения случайной величины и проверить ее при помощи критерия согласия ?2 и критерия Колмогорова (? = 0,05). График гипотетической функции распределения F0(x) построить совместно с графиком F*(x) в той же системе координат и на том же листе.


Необходимая для выполнения задачи выборка, объемом 49 значений одномерной величины, содержится в индивидуальном задании студента.

Методические указания


Генеральной совокупностью опыта называется множество объектов, из которых производится выборка. Выборка – множество случайно отобранных объектов (значений) из генеральной совокупности. Объемом выборки n называется число входящих в нее объектов.

Вариационным рядом называется выборка {}, полученная в результате расположения значений исходной выборки в порядке возрастания. Значения называются вариантами.

Оценка закона распределения

Эмпирическая функция распределения случайной величины X равна частоте того, что X примет значение меньшее, чем аргумент функции x, и определяется формулой

(10.1)

При эмпирическая функция распределения сходится по вероятности к теоретической функции распределения .



Интервальный статистический ряд вероятностей строится по исходной выборке, если анализируемая случайная величина Х является непрерывной, и представляет собой следующую таблицу:

j

Aj

Bj

hj

?j










1

A1

B1

h1

?1



























M

AM

BM

hM

?M







Здесь j – номер интервала;

M – число непересекающихся и примыкающих друг к другу интервалов, на которые разбивается диапазон значений :

(10.2)

где int(x) – целая часть числа x . Желательно, чтобы n без остатка делилось на M;

Aj, Bj – левая и правая границы j-го интервала ( – интервалы примыкают друг к другу), причем ,;

– длина j-го интервала;

? количество чисел в выборке, попадающих в j-й интервал,

– частота попадания в j-й интервал; .

– статистическая плотность вероятности в j-м интервале.

При построения интервального статистического ряда вероятностей используют следующие методы разбиения диапазона значений на интервалы:

1) равноинтервальный, т.е. все интервалы одинаковой длины:

(10.3)

2) равновероятностный, т.е. границы интервалов выбирают так, чтобы в каждом интервале было одинаковое число выборочных значений (необходимо, чтобы n без остатка делилось на M):

(10.4)

Гистограмма строится по интервальному статистическому ряду и представляет собой статистический аналог графика плотности вероятности случайной величины. Гистограмма – совокупность прямоугольников, построенных, как на основаниях, на интервалах hj статистического ряда с высотой, равной статистической плотности вероятности в соответствующем интервале. Для равноинтервального метода все прямоугольники гистограммы имеют одинаковую ширину, а для равновероятностного метода – одинаковую площадь. Сумма площадей всех прямоугольников гистограммы равна 1.
Точечные оценки числовых характеристик

Статистической оценкой параметра Q распределения называется приближенное значение параметра, вычисленное по результатам эксперимента (по выборке). Статистические оценки делятся на точечные и интервальные.

Точечной называется оценка, определяемая одним числом. Точечная оценка параметра Q случайной величины X в общем случае равна , где xi – значения выборки. Очевидно, что оценка – это случайная величина и значения будут изменяться от выборки к выборке случайным образом. К оценкам предъявляется ряд требований.

1. Оценка называется состоятельной, если при увеличении объема выборки n она сходится по вероятности к значению параметра Q:

.

Состоятельность – это минимальное требование к оценкам.

2. Состоятельная оценка называется несмещенной, если ее математическое ожидание точно равно параметру Q для любого объема выборки:

.

3. Состоятельная несмещенная оценка является эффективной, если ее дисперсия минимальна по отношению к дисперсии любой другой оценки этого параметра:

.

Состоятельная, несмещенная и эффективная точечная оценка математического ожидания вычисляется как среднее арифметическое значений выборки , называемое выборочным средним:

(10.5)

Состоятельная несмещенная точечная оценка дисперсии равна

(10.6)

Состоятельная несмещенная точечная оценка среднеквадратического отклонения равна

(10.7)



Интервальные оценки числовых характеристик
Доверительным называется интервал

,

в который с заданной вероятностью (надежностью) g попадает истинное значения параметра Q, где - несмещенная точечная оценка параметра Q. Вероятность g выбирается близкой к 1: 0,9; 0,95; 0,975; 0,99.

Согласно центральной предельной теореме, при достаточно большом объеме выборки n () закон распределения несмещенных точечных оценок и можно считать нормальным при любом законе распределения случайной величины и доверительные интервалы для математического ожидания и дисперсии могут быть определены по следующим формулам.

Доверительный интервал для математического ожидания имеет вид

(10.8)

где - значение аргумента функции Лапласа, т.е. Ф(z?) = .

Доверительный интервал для дисперсии имеет вид

. (10.9)



Проверка статистических гипотез

Статистической гипотезой называется всякое непротиворечивое мно­жество утверждений относительно свойств распределения случайной величины. Простейшей гипотезой является двухальтернативная: . В этом случае альтернативу H0 называют нулевой гипотезой, а H1- конкурирующей гипотезой.

Критерием называется случайная величина , где xi – значения выборки, которая позволяет принять или отклонить нулевую гипотезу . Ошибка первого рода состоит в том, что будет отклонена гипотеза , если она верна («пропуск цели»). Вероятность совершить ошибку первого рода обозначается ? и называется уровнем значимости. Наиболее часто на практике принимают, что ? = 0,05 или ? = 0,01.

Критериями согласия называются критерии, используемые для проверки гипотез о предполагаемом законе распределения.

Гипотеза о законе распределения выдвигается следующим образом.



1. Построить по вариационному ряду график эмпирической функции распределения и гистограммы по интервальным статистическим рядам (равноинтервальному и равновероятностному).

2. По виду графиков выдвинуть двухальтернативную гипотезу о предполагаемом (гипотетическом) законе распределения:

– величина X распределена по такому-то закону:



– величина X не распределена по такому-то закону:

где – плотность и функция распределения гипотетического закона распределения.

График эмпирической функции распределения должен быть похож на график функции распределения гипотетического закона, а гистограммы на график плотности гипотетического распределения . Ниже приведены графики и аналитические выражения плотности и функции распределения для часто встречающихся на практике законов.


Равномерное распределение имеет непрерывная случайная величина Х, если ее плотность вероятности в некотором интервале ?а; b] постоянна:

(10.10)

где а, b параметры распределения (b > a).

Графики плотности и функции равномерного распределения при a = 1 и b = 3 показаны на рис. 10.1:

Рис. 10.1



Экспоненциальное распределение имеет непрерывная случайная величина T, принимающая только положительные значения, если ее плотность вероятности и функция распределения равны:

(10.11)

где ? параметр распределения (? >0).

Графики плотности и функции экспоненциального распределения при ? =1 показаны на рис. 10.2:

Рис. 10.2



Нормальное распределение (распределение Гаусса) имеет непрерывная случайная величина Х, если ее плотность вероятности и функция распределения равны:

, , (10.12)

где m, σ – параметры распределения ( σ >0),

— функция Лапласа.

Графики плотности и функции нормального распределения при m =0, σ =1 показаны на рис. 10.3:



Рис. 10.3
3. Вычислить точечные оценки математического ожидания и дисперсии и, используя метод моментов, определить оценки неизвестных параметров гипотетического закона распределения, где число неизвестных параметров гипотетического закона распределения.

Оценки неизвестных параметров а, b равномерного распределения можно определить по формулам

(10.13)

или


(10.14)

где первое и последнее значение вариационного ряда соответственно.

Оценку неизвестного параметра ? экспоненциального распределения можно определить по формуле

(10.15)

Оценки неизвестных параметров нормального распределения можно определить по формулам:

(10.16)



4. Проверить гипотезу о предполагаемом законе распределения при помощи критерия согласия.

Критерий согласия Пирсона () один из наиболее часто применяемых критериев. Алгоритм проверки гипотезы о предполагаемом законе распределения следующий.

1. По интервальному статистическому ряду (равноинтервальному или равновероятностному) вычислить значение критерия по формуле:

, (10.17)
где объем выборки;

M – число интервалов интервального статистического ряда;

– частота попадания в j-й интервал;

– количество чисел в выборке, попадающих в j-й интервал;

pj теоретическая вероятность попадания случайной величины в j- й интервал при условии, что гипотеза верна:

. (10.18)

где , плотность и функция распределения гипотетического закона распределения.

При расчете p1 и pM в качестве крайних границ первого и последнего интервалов A1, BM следует использовать теоретические границы гипотетического закона распределения.

Если проверяется гипотеза о равномерном законе распределения, то , , а гипотетическая функция распределения будет иметь следующий вид (см. (10.10) и (10.14)):

(10.19)

и теоретические вероятности попадания в интервалы будет вычисляться по формуле

(10.20)

Если проверяется гипотеза об экспоненциальном законе распределения, то , , и гипотетическая функция распределения будет иметь вид (см. (10.11) и (10.15)):

(10.21)

а теоретические вероятности попадания в интервалы будет вычисляться по формуле:

(10.22)

Если проверяется гипотеза о нормальном законе распределения, то , , и гипотетическая функция распределения будет иметь вид (см. (10.12) и (10.16)):

(10.23)

а теоретические вероятности попадания в интервалы будет вычисляться по формулам:

(10.24)

При правильном вычислении вероятностей должно выполняется контрольное соотношение .

Величина распределена по закону, который называется распределением . Данное распределение не зависит от закона распределения величины X, а зависит от параметра k, который называется числом степеней свободы.

2. Из таблицы распределения выбирается критическое значение , где a - заданный уровень значимости (a = 0,05 или a = 0,01), а k - число степеней свободы, которое определяется по формуле:

(10.25)

где M число слагаемых в формуле (10.17), т.е. число интервалов интервального статистического ряда,

s - число неизвестных параметров гипотетического закона распределения, значения (для равномерного закона , экспоненциального , нормального ).

3. Если значение , вычисленное по выборочным данным на шаге 1, больше, чем критическое значение, т.е. , то гипотеза отклоняется, в противном случае нет оснований ее отклонить.


Критерий согласия Колмогорова. Алгоритм проверки гипотезы о предполагаемом законе распределения следующий.

1. На основании эмпирической функции распределения вычислить значение критерия Колмогорова

(10.26)

где объем выборки;



– максимальный модуль отклонения эмпирической функции распределения от гипотетической функции распределения , определенный по всем n значения xi исходной выборки.

Значение Z с достаточной точностью может быть определено по графикам функций и , которые стоят в одной системе координат на масштабно-координатной бумаге («миллиметровке»). Для построения графика достаточно рассчитать значения функции в 10...20 равноотстоящих точках, которые затем соединить плавной кривой.

Величина λ распределена по закону Колмогорова, который не зависит от закона распределения величины X.

2. Из таблицы распределения Колмогорова выбрать критическое значение , , где a - заданный уровень значимости (a = 0,05 или a = 0,01).

3. Если значение l, вычисленное на шаге 1, больше, чем критическое значение, т.е. l > lg , то гипотеза отклоняется, в противном случае нет оснований ее отклонить.

Примеры

Пример 10.1. По вариационному ряду случайной величины X (n=100):

-6,237 -6,229 -5,779 -5,139 -4,950 -4,919 -4,636 -4,560 -4,530 -4,526 -4,523 -4,511 -4,409 -4,336 -4,259 -4,055 -4,044 -4,006 -3,972 -3,944 -3,829 -3,794 -3,716 -3,542 -3,541 -3,431 -3,406 -3,384 -3,307 -3,181 -3,148 -3,124 -3,116 -2,892 -2,785 -2,734 -2,711 -2,637 -2,633 -2,428 -2,381 -2,339 -2,276 -2,222 -2,167 -2,111 -2,034 -1,958 -1,854 -1,803 -1,774 -1,755 -1,745 -1,713 -1,709 -1,566 -1,548 -1,480 -1,448 -1,353 -1,266 -1,229 -1,179 -1,130 -1,102 -1,060 -1,046 -1,035 -0,969 -0,960 -0,903 -0,885 -0,866 -0,865 -0,774 -0,721 -0,688 -0,673 -0,662 -0,626 -0,543 -0,445 -0,241 -0,174 -0,131 0,115 0,205 0,355 0,577 0,591 0,795 0,986 1,068 1,099 1,195 1,540 2,008 2,160 2,534 2,848

- построить график эмпирической функции распределения ;

- построить гистограмму равноинтервальным способом;

- построить гистограмму равновероятностным способом;

- вычислить точечные оценки математического ожидания и дисперсии;

- вычислить интервальные оценки математического ожидания и дисперсии (γ = 0,95);

- выдвинуть гипотезу о законе распределения случайной величины и проверить ее при помощи критерия согласия и критерия Колмогорова . График гипотетической функции распределения построить совместно с графиком в той же системе координат и на том же листе.



Решение. По формуле (10.1) построим график эмпирической функции распределения (рис. 10.4). Так как является неубывающей функцией и все ступеньки графика имеют одинаковую величину 1/n (или ей кратны – для одинаковых значений), то таблицу значений эмпирической функции распределения F*(x) можно не вычислять, а построить ее график непосредственно по и вариационному ряду, начиная с его первого значения (см. Пример 5.2. ).

Рис. 10.4 Графики эмпирической и гипотетической функций распределения

Количество интервалов M, необходимое для построения гистограмм, определим по объему выборки ( см. формулу (10.2)):

Для равноинтервальной гистограммы величины hj, Aj, Bj, рассчитаем по формуле (10.3) и заполним все колонки интервального статистического ряда (таб. 10.1):



Таблица 10.1

j

Aj

Bj

hj

?j










1

-6,237

-5,3345

0,9085

3

0,03

0,033

2

-5,3345

-4,426

0,9085

9

0,09

0,099

3

-4,426

-3,5175

0,9085

13

0,13

0,143

4

-3,5175

-2,609

0,9085

14

0,14

0,154

5

-2,609

-1,7005

0,9085

16

0,16

0,176

6

1,7005

-0,792

0.9085

19

0,19

0,209

7

-0,792

0,1165

0,9085

12

0,12

0,132

8

0,1165

1,025

0,9085

6

0,06

0,066

9

1,025

1,9335

0,9085

4

0,04

0.044

10

1,9335

2,848

0,9085

4

0,04

0,044

Равноинтервальная гистограмма имеет вид, согласно рис. 10.5:


Рис. 10.5 Равноинтервальная гистограмма

Для равновероятностной гистограммы величины ?j ,, Aj, Bj, рассчитаем по формуле (10.4) и заполним все колонки интервального статистического ряда(таб. 10.2):



Таблица 10.2

j

Aj

Bj

hi

?j










1

-6,2370

-4,5245

1,7125

10

0,1

0.0584

2

-4,5245

-3,8865

0,6380

10

0,1

0,1567

3

-3,8865

-3,1645

0,7220

10

0,1

0,1385

4

-3,1645

-2,4045

0,7600

10

0,1

0,1316

5

-2,4045

-1,7885

0,6160

10

0,1

0,1623

6

-1,7885

-1,3095

0,4790

10

0,1

0,2086

7

-1,3085

-0,9319

0,3766

10

0,1

0,2655

8

-0,9319

-0,5843

0,3476

10

0,1

0,2877

9

-0,5843

0,6932

1,2775

10

0,1

0,0783

10

0,6932

2,8480

2,1548

10

0,1

0,0464

Равновероятностная гистограмма имеет вид, согласно рис. 10.6:


Рис. 10.6 Равновероятностная гистограмма

Вычислим точечную оценку математического ожидания по формуле (10.5):



.

Вычислим точечную оценку дисперсии по формуле (10.6):



.

Построим доверительный интервал для математического ожидания с надежностью γ = 0,95 по формуле (10.8). Для этого в таблице функции Лапласа (см. Приложение 2) найдем значение, равное = 0,475, и определим значение аргумента, ему соответствующее: (строка 1,9, столбец 6). Затем вычислим и получим доверительный интервал для математического ожидания:



.

Построим доверительный интервал для дисперсии с надежностью γ = 0,95 по формуле (10.9). Вычислим и получим доверительный интервал для дисперсии:



.
По виду графика эмпирической функции распределения и гистограмм выдвигаем двухальтернативную гипотезу о законе распределения случайной величины

– величина X распределена по нормальному закону:

,

– величина X не распределена по нормальному закону:

Определим оценки неизвестных параметров m и σ гипотетического (нормального) закона распределения по формулам (10.16):



.

Таким образом, получаем полностью определенную гипотетическую функцию распределения (см. формулу (10.23)):



.

Проверим гипотезу о нормальном законе с помощью критерия .

Вычислим значение критерия на основе равноинтервального статистического ряда (см. таб. 10.1) по формуле (10.17):



Теоретические вероятности pi попадания в интервалы равноинтервального статистического ряда нормальной случайной величины с параметрами вычислим по формуле (10.24):



.

Значения функции Лапласа определяем с помощью таблицы, приведенной в Приложение 2. При использовании таблицы функции Лапласа следует учитывать, что . Результаты расчета можно свести в таблицу:



Таблица 10.3

j

Aj

Bj



















1

-∞

-5,335

0

0,0336

0,0336

0,03

0

2

-5,335

-4,426

0,0336

0,0708

0,0372

0,09

0,0625

3

-4,426

-3,518

0,0708

0,1768

0,106

0,13

0,003636

4

-3,518

-2,609

0,1768

0,3228

0,146

0,14

0,000667

5

-2,609

-1,701

0,3228

0,5

0,1772

0,16

0,000588

6

1,7005

-0,792

0,5

0,6772

0,1772

0,19

0,000556

7

-0,792

0,1165

0,6772

0,8212

0,144

0,12

0,002857

8

0,1165

1,025

0,8212

0,9162

0,095

0,06

0,01

9

1,025

1,9335

0,9162

0,989

0,0728

0,04

0,012857

10

1,9335

+∞

0,989

1

0,011

0,04

0,02













Сумма:

0,999

1

0,113661

Проверяем выполнение контрольного соотношения для :



В результате получаем .

Вычислим число степеней свободы по формуле (10.25) и по заданному уровню значимости ? =0,05 из таблицы распределения (см. Приложение 4) выбираем критическое значение .

Так как то гипотеза о нормальном законе распределения принимается (нет основания ее отклонить).



Проверим гипотезу о нормальном законе с помощью критерия Колмогорова. Построим график в одной системе координат с графиком эмпирической функции распределения (см. рис 10.1). В качестве опорных точек для графика используем 10 значений из таб. 10.3.

По графику определим максимальное по модулю отклонение между функциями и (см. рис 10.1):

Вычислим значение критерия Колмогорова по формуле (10.26):

Из таблицы Колмогорова (см. Приложение 5) по заданному уровню значимости ? =0,05 выбираем критическое значение

Так как , то гипотезу о нормальном законе распределения отвергать нет основания.

1   2   3   4   5   6   7   8   9


База данных защищена авторским правом ©infoeto.ru 2022
обратиться к администрации
Как написать курсовую работу | Как написать хороший реферат
    Главная страница