В., Кукуш А. Г., Харченко В. П. Оценка вероятности правильного распознавания по правилу Байеса при неточно известной плотности распределения



Скачать 98.34 Kb.
Дата 01.10.2016
Размер 98.34 Kb.
УДК 621.396.96

Остроумов И.В., Кукуш А.Г., Харченко В.П.


Оценка вероятности правильного распознавания по правилу Байеса при неточно известной плотности распределения
Изложено методику оценки вероятности правильного распознавания по правилу Байеса при неточно известной плотности распределения. Выведено выражение для оценки ошибки, учитывающей неточность задания плотности распределения. Приведены варианты оценивания вероятности правильного распознавания для разных объёмов выборки.
Многоальтернативная классификация ситуации

Во многих задачах оценку неизвестного параметра целесообразно производить по определённым классам. Рассматривается спектр возможных ситуаций, в которых может находиться неизвестная величина, и определяется её принадлежность к конкретному классу. В подобных задачах, как правило, оцениваемая величина распределена в границах каждого класса по нормальному закону (рис.1).

Каждому из классов Aк, где , соответствуют определенные математическое ожидание mк и дисперсия . Принадлежность к одному из классов определяется по максимуму апостериорной вероятности, которая находится по формуле Байеса. Каждый из классов характеризуется плотностью распределения наблюдаемого параметра х.

На практике эти плотности никогда не известны точно. На основании обучающей выборки строится оценка плотности , которая отличается от истинной плотности. Поэтому возникает необходимость учитывать эту неточность задания плотности в формуле Байеса при расчёте вероятности правильного выбора класса.


Вероятность правильного распознавания класса ситуации

Пусть имеем N классов А1 ,…, АN (рис.1), которые характеризуются плотностью вероятности наблюдаемого параметра х: , и рк - априорные вероятности классов, .

В результате выполнения измерений имеем для некоторого (неизвестного) класса Ак n независимых наблюдений х1,…, хn параметра х. Обозначим неточные значения плотностей через Они строятся при помощи нескольких обучающих выборок и учитывают статистические оценки, построенные по этим выборкам.

По наблюдениям строятся плотности



.
Также обозначим истинную плотность вектора через

.

Гипотеза Нк заключается в принадлежности наблюдаемого параметра классу Ак . Решение принимается в пользу гипотезы Нк , если



.

Если максимум достигается на нескольких , тогда решение принимается в пользу любой из гипотез, . Например, в пользу где Обозначим через область в пространстве Rn реализаций где решение принимается в пользу Нк . Тогда вероятность правильного распознавания равна



,

,

(1)

где - вероятность правильного распознавания, если бы истинными были плотности , а не , .

Из (1) имеем , тогда



.

(2)



Приблизительный подсчёт

Принадлежность к определенному классу определяется по максимуму апостериорной вероятности, которая находится по формуле Байеса [1]. Имеем



,

(3)

,

где - это символ математического ожидания при условии, что имеет плотность распределения .

Тогда приближенное значение определяется методом Монте-Карло


,

(4)

где смоделированы с плотностью ,

М - количество реализаций, в каждой из которых имеется n измерений.


Оценка ошибки

Попробуем оценить величину ошибки . Из (2) имеем



,

(5)

где Ек - математическое ожидание при условии, что компоненты имеют общее распределение с плотностью . Отношение плотностей удобно представить в виде

.

(6)

Обозначим число Кульбака-Лейблера:



.

Тогда по центральной предельной теореме [2] получим



,

.

Имеем


,

(7)

где - стандартные гауссовские величины. Далее, подставляя в (5) выражения из соотношений (6) и (7), получим

,

(8)

где ~N(0,1).

Значения и критические для оценки точности процедуры оценивания. В случае, когда (плотность известна точно), имеем , и .

Пусть - плотность закона , где , а - плотность закона , то есть средние значения для классов считаем известными точно.

Тогда имеем:



,

,

,

(9)

,

, ~N(0,1).

Учитывая, что E=1, E=3, имеем



.

(10)

Если удастся обеспечить выполнение неравенства: , тогда далее возможно будет через найти оценку ,и оценить .

Величина оценивается по обучающей выборке. Пусть - обучающая выборка из закона , тогда



,

где - квантиль распределения с m степенями свободы, а обозначение указывает на то, что случайные величины имеют одинаковые распределения.

Имеем ;

.

Тогда асимптотический доверительный интервал [3] для будет иметь вид: ,

где - квантиль нормального закона, то есть

Р{ N(0,1) ≥ } = ; - обычный выбор уровня доверия.

Окончательно имеем такой вид доверительного интервала


.

(11)

Это позволяет с доверительной вероятностью оценить ,и , а также гарантировать соответствующее значение для РП.
Вычисление экспоненциальных моментов

При оценивании ошибки R необходимо уметь рассчитывать



, , , .

Сведём эту функцию к функции распределения стандартной гауссовской случайной величины, так как это табулированная функция.

Имеем при

Окончательно получим при



.

(12)

В случае имеем ,

а при : .

Функция непрерывна на множестве .

Запишем (8) в виде , а построенный асимптотический доверительный интервал (11) в виде .

Далее, учитывая (10), получим граничное значение для дисперсии



.

(13)

Для построения граничного значения математического ожидания, записанного в виде (9), обозначим





(14)

и будем считать, что h1.

Введём обозначение , тогда (9) примет вид .

Элементарное исследование с помощью производных показывает, что возрастает при , и убывает при .

Сравним и

Покажем, что

.

Это равносильно такому:



Но



Тогда имеем



.

Обозначим: , .

Отметим, что в силу непрерывности , величина мала для достаточно малых .

Так как нас интересует , учитывая (14), получим



.

Обозначим ;



.

Тогда ,

имеем

где построенные для к-го класса по соответственной обучающей выборке.

Обучающие выборки для всех N классов независимые, поэтому

.

Если пренебречь тем, что асимптотический доверительный интервал отличается от неасимптотического, имеем



,

где - объём выборки для к-го класса, а - вероятность того, что хотя бы одно отношение не попадёт в интервал .


Просчёт вероятности правильного распознавания и ошибки

Произведём оценку вероятности правильного распознавания в ситуации, когда плотности распределения известны неточно, на примере чётырёх-классовой классификации ситуаций по методике, изложенной выше. Рассчитаем значения вероятности правильного распознавания по формуле Байеса и ошибку, учитывающую неточность задания плотностей. Подсчёт проведём при трёх разных объёмах основной выборки и разных значениях объёма обучающей выборки. Результаты представлены в таблице 1 при .

Таблица 1.


Исходные данные

Результаты

Объём основной

выборки,


n

Объём обучающей

выборки,


m



R1


















20

104

0,97

0,2

0,77

105

0,94

0,1

0,84

106

0,92

0,06

0,85

107

0,92

0,05

0,87
















40

104

0,97

0,26

0,71

105

0,96

0,11

0,85

106

0,95

0,07

0,88

107

0,97

0,05

0,92
















60

104

0,97

0,31

0,66

105

0,97

0,13

0,84

106

0,97

0,07

0,9

107

0,97

0,05

0,92

Из полученных результатов видно, что ошибка, учитывающая неточность задания плотностей распределения, возрастает с увеличением количества измерений и убывает с увеличением объёма выборки. Следовательно, для уменьшения ошибки необходимо выбирать объём обучающей выборки достаточно большим, а объём основной выборки должен быть оптимальным, так как существует такое количество измерений, при превышении которого происходит значительное увеличение ошибки, а рост вероятности правильного распознавания, полученной по формуле Байеса , намного меньше.



Выводы

Таким образом, приведён вариант оценки вероятности правильного распознавания класса ситуации в случае, когда плотности распределения известны неточно. В результате получен интервал значений величины R1 – ошибки, которая учитывает неточность задания плотностей распределения. Полная же вероятность правильного распознавания может быть оценена неравенством:



При этом вероятность правильного распознавания рассчитывается по формуле Байеса (4), а величина R1 учитывает неточность задания плотностей.



Проведен расчёт полной вероятности правильного распознавания для разных значений объёма выборки и для разного количества измерений. Даны рекомендации для понижения влияния ошибки, вызванной из-за неточности задания плотностей распределения, на вероятность правильного распознавания класса ситуации.
Литература


  1. Закс Ш., Теория статистических выводов перевод с англ. Е.В. Чепурина. – М.: Мир,1975. -776 с.

  2. Вентцель Е.С., Теория вероятностей: Учеб.для вузов. – 5-е изд. стер. – М.: Высш. Шк., 1998. -578 с.

  3. Кокс Д., Снелл.Є., Прикладная статистика. Принципы и примеры. Пер. с англ. – М.: Мир, 1984. -200с.






База данных защищена авторским правом ©infoeto.ru 2022
обратиться к администрации
Как написать курсовую работу | Как написать хороший реферат
    Главная страница