Задача 11. Обработка двухмерной выборки
Условие задачи
По выборке двухмерной случайной величины:
- вычислить точечную оценку коэффициента корреляции;
- вычислить интервальную оценку коэффициента корреляции (γ = 0,95);
- проверить гипотезу об отсутствии корреляционной зависимости;
- вычислить оценки параметров a0 и a1 линии регрессии;
- построить диаграмму рассеивания и линию регрессии.
Необходимая для выполнения задачи выборка, объемом 25 пар значений двумерной величины, содержится в индивидуальном задании студента.
Методические указания
Пусть проводится n независимых опытов, в каждом из которых двухмерная случайная величина (X,Y) принимает определенные значения и результаты опытов представляют собой двухмерную выборку вида
Статистическая обработка двухмерных массивов данных включает в себя обработку и анализ составляющих X и Y как одномерных величин, и вычисление оценок и анализ параметров, присущих только двухмерным (многомерным) случайным величинам.
Как правило, определяются следующие оценки:
– математических ожиданий случайных величин X и Y:
(11.1)
– дисперсий случайных величин X и Y:
(11.2)
Состоятельная несмещенная оценка корреляционного момента равна
(11.3)
где – значения, которые приняли случайные величины X и Y в i-м опыте;
– средние значения случайных величин X и Y соответственно.
Состоятельная оценка коэффициента корреляции равна
(11.4)
где – оценки среднеквадратического отклонения случайных величин X и Y соответственно.
Доверительный интервал для коэффициента корреляции с надежностью γ для случая двумерного нормального распределения имеет вид
(11.5)
где;
;
– значение аргумента функции Лапласа, т.е. .
Гипотеза об отсутствии корреляционной зависимости. Предполагается, что двухмерная случайная величина (X, Y) распределена по нормальному закону. Алгоритм проверки следующий.
1. Формулируется гипотеза:
: ;
: .
Здесь – теоретический коэффициент корреляции.
2. Вычисляется оценка коэффициента корреляции по формуле (11.4).
3. Если объем выборки не велик ( n
, (11.6)
который распределен по закону Стьюдента с степенями свободы, если гипотеза верна.
4. По заданному уровню значимости ? вычисляется доверительная вероятность и из таблицы Стьюдента выбирается критическое значение (см. Приложение 3).
5. Если , то гипотеза отклоняется, т.е. величины X, Y коррелированны. В противном случае гипотеза принимается.
3*. Если объем выборки велик (n ≥ 50 ), то определяется значение критерия
, (11.7)
который распределен по нормальному закону, если гипотеза верна.
4*. По заданному уровню значимости ? из таблицы функции Лапласа определяется критическое значение , т.е. (см. Приложение 2).
5*. Если , то гипотеза отклоняется, а следовательно, величины X, Y коррелированны. В противном случае гипотеза принимается.
Оценка регрессионных характеристик
Регрессией случайной величины Y на x называется условное математическое ожидание случайной величины Y при условии, что X = x. Регрессия Y на x устанавливает зависимость среднего значения величины Y от величины X. Если случайные величины X и Y независимы, то
Необходимо на основании имеющейся выборки выявить характер связи между величинами X, Y, т.е. получить оценку условного математического ожидания ? оценку регрессии Y на х. Данная оценка представляет собой некоторую функцию:
,
где – неизвестные параметры.
Для определения типа зависимости строится диаграмма рассеивания или корреляционное поле, которую можно получить, если результаты опытов изобразить в виде точек на плоскости в декартовой системе координат. На основании анализа корреляционного поля выбираем тип линии регрессии . Значения параметров для выбранного типа определяются так, чтобы функция наилучшим образом соответствовал бы неизвестной регрессии , т.е. ее значения должны быть приблизительно равны средним арифметическим значений Y для каждого значения Х = х.
Если величины X и Y распределены по нормальному закону, то регрессия является линейной:
Оценки параметров для линейной регрессии определяются по формулам
(11.8)
где – оценки математического ожидания величин X и Y;
– оценка дисперсии величины X;
– оценка корреляционного момента величин X и Y.
Для визуальной проверки правильности вычисления величин необходимо построить диаграмму рассеивания и график . Если оценки параметров рассчитаны без грубых ошибок, то сумма квадратов отклонений всех значений (точек) двухмерной выборки от прямой должна быть минимально возможной.
Примеры
Пример 11.1. По выборке двухмерной случайной величины, которая содержит 50 пар значений (x,y) (первые два столбца таб. 11.1):
– вычислить точечную оценку коэффициента корреляции;
– вычислить интервальную оценку коэффициента корреляции (γ = 0,95);
– проверить гипотезу об отсутствии корреляционной зависимости (? = 0,05);
– вычислить оценки параметров и линии регрессии;
– построить диаграмму рассеивания и линию регрессии.
Решение. Для решения задачи удобно воспользоваться приведенной ниже таблицей. Значения в 3-ем, 4-ом и 5-ом столбцах вычисляются по формулам, приведенными в первой строке таблицы. В последней строке таблицы приведены средние арифметические значений каждого из столбцов. Таким образом получены:
-
оценки математических ожиданий по каждой переменной (см. (11.1)):
5,08 (см. столбец 2),
5,21 (см. столбец 3);
-
оценки начальных моментов второго порядка по каждой переменной:
34,55755 (см. столбец 4),
36,09954 (см. столбец 5);
-
оценка смешанного начального момента второго порядка:
27,98996 (см. столбец 6).
Таблица 11.1
№
|
x
|
y
|
x2
|
y2
|
x*y
|
|
1
|
8,974883
|
9,784539
|
80,54853
|
95,73721
|
87,8151
|
2
|
1,271096
|
5,058748
|
1,615685
|
25,59093
|
6,430154
|
3
|
3,967406
|
6,383251
|
15,74031
|
40,7459
|
25,32495
|
4
|
6,841945
|
1,953795
|
46,81221
|
3,817315
|
13,36776
|
5
|
3,341777
|
5,445723
|
11,16747
|
29,6559
|
18,19839
|
6
|
6,009095
|
1,657155
|
36,10922
|
2,746163
|
9,958001
|
7
|
3,806879
|
1,750542
|
14,49233
|
3,064396
|
6,6641
|
8
|
4,714805
|
0,509049
|
22,22938
|
0,259131
|
2,400065
|
9
|
8,8464
|
2,334056
|
78,2588
|
5,447816
|
20,64799
|
10
|
4,395581
|
1,568651
|
19,32113
|
2,460667
|
6,895134
|
11
|
2,179632
|
2,34901
|
4,750795
|
5,517846
|
5,119977
|
12
|
5,651112
|
9,857173
|
31,93507
|
97,16387
|
55,70399
|
13
|
3,278298
|
4,774926
|
10,74724
|
22,79992
|
15,65363
|
14
|
0,369579
|
2,23365
|
0,136589
|
4,989191
|
0,82551
|
15
|
8,991363
|
1,784112
|
80,84461
|
3,183056
|
16,0416
|
16
|
8,873562
|
2,211371
|
78,7401
|
4,890163
|
19,62274
|
17
|
0,347606
|
0,58504
|
0,12083
|
0,342272
|
0,203363
|
18
|
3,643605
|
5,025178
|
13,27586
|
25,25241
|
18,30976
|
19
|
8,600116
|
1,547594
|
73,96199
|
2,395046
|
13,30948
|
20
|
6,193731
|
3,268838
|
38,36231
|
10,6853
|
20,2463
|
21
|
9,565111
|
1,426435
|
91,49135
|
2,034717
|
13,64401
|
22
|
8,646809
|
8,410901
|
74,76731
|
70,74326
|
72,72746
|
23
|
0,328074
|
9,496139
|
0,107633
|
90,17666
|
3,115436
|
24
|
6,583453
|
8,498489
|
43,34185
|
72,22432
|
55,9494
|
25
|
7,376934
|
9,40611
|
54,41916
|
88,4749
|
69,38825
|
26
|
4,722129
|
7,369304
|
22,2985
|
54,30665
|
34,79881
|
27
|
0,216987
|
4,574725
|
0,047083
|
20,9281
|
0,992654
|
28
|
1,993774
|
5,678579
|
3,975136
|
32,24626
|
11,3218
|
29
|
9,5468
|
9,927671
|
91,14139
|
98,55865
|
94,77749
|
30
|
7,572253
|
9,053316
|
57,33901
|
81,96253
|
68,55399
|
31
|
4,035768
|
7,796869
|
16,28742
|
60,79116
|
31,46635
|
32
|
4,425794
|
3,689077
|
19,58765
|
13,60929
|
16,3271
|
33
|
4,788659
|
0,793786
|
22,93126
|
0,630097
|
3,801173
|
34
|
1,951964
|
4,702902
|
3,810163
|
22,11729
|
9,179895
|
35
|
1,539354
|
9,467757
|
2,36961
|
89,63843
|
14,57423
|
36
|
4,251534
|
7,547838
|
18,07554
|
56,96985
|
32,08989
|
37
|
9,650868
|
7,558214
|
93,13926
|
57,1266
|
72,94333
|
38
|
5,616932
|
7,811213
|
31,54992
|
61,01504
|
43,87505
|
39
|
1,975768
|
2,663045
|
3,90366
|
7,091809
|
5,26156
|
40
|
9,783319
|
9,700919
|
95,71332
|
94,10782
|
94,90718
|
41
|
4,645833
|
5,125278
|
21,58376
|
26,26848
|
23,81119
|
42
|
4,516434
|
8,537248
|
20,39818
|
72,8846
|
38,55792
|
43
|
0,844447
|
2,955412
|
0,713091
|
8,734463
|
2,49569
|
44
|
8,093509
|
7,561266
|
65,50488
|
57,17274
|
61,19717
|
45
|
1,636402
|
5,603198
|
2,677813
|
31,39583
|
9,169088
|
46
|
9,240089
|
4,370251
|
85,37925
|
19,09909
|
40,3815
|
47
|
7,904599
|
4,388867
|
62,48269
|
19,26215
|
34,69223
|
48
|
7,087313
|
7,297891
|
50,23001
|
53,25922
|
51,72244
|
49
|
2,466811
|
2,405164
|
6,085157
|
5,784813
|
5,933085
|
50
|
2,71218
|
7,043977
|
7,35592
|
49,61761
|
19,10453
|
Средние
|
5,080367
|
5,218885
|
34,55755
|
36,09954
|
27,98996
|
На основе этих данных легко вычислить оценки дисперсий (см. (11.2)):
8,74746;
8,86278
и оценку корреляционного момента (см. (11.3))
1,476106
Вычислим точечную оценку коэффициент корреляции по формуле (11.4):
0,168.
Вычислим интервальную оценку коэффициента корреляции с надежностью γ = 0,95 по формуле (11.5). Для этого в таблице функции Лапласа (см. Приложение 2) найдем значение, равное и определим значение аргумента, ему соответствующее: (строка 1,9, столбец 6). Вычислим вспомогательные значения a, b:
Таким образом, доверительный интервал для коэффициента корреляции имеет вид
Проверим гипотезу об отсутствии корреляционной зависимости:
Так как объем выборки велик (n ≥ 50 ), то вычислим значение критерия по формуле (11.7):
.
Определим значение Zα из таблицы функции Лапласа (см. Приложение 2):
Так как , то гипотеза H0 принимается, т.е. величины X и Y некоррелированны.
Вычислим оценки параметров и линии регрессии по формуле (11.8):
Уравнение линии регрессии имеет вид:
Построим диаграмму рассеивания, изобразив значения исходной двумерной выборки в виде точек с координатами на плоскости в декартовой системе координат, и линию регрессии (рис. 11.1).
Рис. 11.1 Диаграмма рассеивания и линия регрессии
|