10 Вопросы автоматизированной медико-технической диагностики




Скачать 388.79 Kb.
страница 1/2
Дата 27.09.2016
Размер 388.79 Kb.
  1   2




10





Вопросы автоматизированной медико-технической диагностики
Диагноз (от греч. diagnosis — распознавание), определение существа и особенностей болезни на основе всестороннего исследования больного. В настоящее время широкое распространение среди диагностических методов получили компьютерные методы диагностики. Все эти методы подразумевают получение диагностической информации по результатам измерения различных характеристик какой-либо части организма. Такая информация отражает состояние различных функциональных систем организма, и носит опережающий характер, т.е. позволяет производить оперативный прогноз функционального состояния какой-либо части организма (отсюда термин «функциональная диагностика»).

Основной проблемой медико-технической диагностики является автоматизированная обработка измеренных характеристик биообъекта и выдача заключения о его состоянии.

Выбор таких характеристик определяется:

- информативностью характеристик биообъекта для оценки функционального состояния;

- адекватностью метрологического обеспечения, используемо­го для регистрации указанных характеристик;

-возможностью автоматизации измерений этих характеристик, а также их обработки в реальном масштабе времени с автоматическим при­нятием решения.

Другой проблемой является автоматизированная оценка эффекта при терапевтических методах лечения.

Для решения проблем медико-технической диагностики разработаны разнообразные компьютерные программные комплексы, основанные на различных математических методах. Поэтому современную медико-техническую диагностику часто называют компьютерной диагностикой.
10.1. Предмет, задачи и методы автоматизированной медико-технической диагностики.

Современная медико-техническая диагностика основана на данных, полученных в результате всестороннего исследования пациента с помощью лабораторно-клинических анализов и медицинской аппаратуры. Полученные данные являются отображением характеристик пациента - показателей, по которым определяют состояние организма пациента и определяют наличие болезни или ее отсутствие – ставят диагноз. Существовать – значит быть тождественным самому себе (рефлексивное отношение), что, в свою очередь, значит быть идентифицированным.

Характеристики, по совокупности которых объект может быть идентифицирован (распознан), называют первичными характеристиками. Любые другие характеристики, не участвующие в идентификации объекта, называют вторичными.

Принципиальная трудность в том, что в настоящее время нет единой концепции в определении понятия «болезнь», и, следовательно, нет однозначной диагностики.

При определении понятия "болезнь" возникает ряд трудностей:

1. Не существует фиксированного числа болезней, их признаков и симптомов;

2. Не все болезни, признаки и симптомы имеют общепринятые определения;

3. Проявления даже хорошо описанных болезней изменяются во времени;

4. Степень уверенности, с которой врач может идентифицировать болезнь – ставить диагноз, значительно изменяется от болезни к болезни.

Показатели состояния пациента формируются путем обработки медико-биологических сигналов, получаемых при обследовании с помощью различных приборов и комплексов диагностического назначения. При таких обследованиях обычно получают числовые значения (анализы), графики – временные последовательности медико-биологических сигналов (ВП МБС), например, электрокардиограммы, или изображения – пространственные распределения медико-биологических сигналов (ПР МБС), например, рентгенограммы. Для краткости такие данные можно называть медико-биологическими сигналами (МБС).

Одна из основных задач, которую необходимо решить при обработке МБС является создание систем дешифрироки сигналов. Работа этих систем основана на количественных значениях диагностически значимой – аксиологической информации (axio – ценная, гр.) о состоянии и процессах в биообъекте.

С развитием цифровых методов формируются подходы к преобразованию физических и структурных свойств сигналов. Следует отметить, что научно-методическая база анализа информационных свойств сигнала, позволяющая автоматизировать процесс дешифрирования, находится в стадии становления и представляет собой широкое поле деятельности для специалистов биомедтехники.

В процессе анализа МБС при исследовании функций органа или его морфологических особенностей врач проводит дешифровку МБС: выделяет и анализирует аксиологические признаки болезней, патологий, функциональных расстройств.

В общем случае дешифровка проходит через ряд этапов (уровней):



  1. обнаружение – определение участков, отличающихся от стандартных (нормы);

  2. распознавание состояния участка (норма – патология);

  3. классификация – определение принадлежности обнаруженных изменений к тому или иному классу;

  4. анализ – определение состояния пациента;

  5. синтез (диагноз) – выбор процедуры лечения и контроля результатов лечения.

При этом врач может выполнять преобразования полученных МБС, то есть проводить их предварительную обработку, при которой физические параметры аксиологической информации оказались бы наиболее заметными.

Предварительная обработка, обнаружение и распознавание относятся к низшим уровням дешифровки, классификация - к среднему уровню. Анализ ситуаций и составление лингвистического описания (синтез), которые в практических случаях реализуются врачом (дешифровщиком), относятся к высшим уровням.

Кроме прямых связей, между уровнями дешифровки могут быть обратные связи, используемые для коррекции результатов обработки на низших уровнях.

Существующая медицинская техника реализует, как правило, только этап предварительной обработки, а остальные этапы дешифровки выполняет врач. Актуальной задачей повышения эффективности медицинской техники является обеспечение автоматического или автоматизированного выполнения одного или нескольких этапов дешифровки. Создание автоматизированных систем дешифровки МБС является одной из основных задач медико-технической диагностики.

Медико-техническая диагностика решает обширный круг задач, многие из которых являются смежными с задачами других научных дисциплин.

Основной задачей медико-технической диагностики является распознваание состояния пациента в условиях ограниченной информации. Важное требование к медико-технической диагностике – неинвазивность. Анализ состояния пациента проводят без нарушения жизнедеятельности. Часто по получаемой информации нельзя сделать однозначное заключение и приходиться использовать статистические методы.

Использование статистических методов обусловлено также тем, что возникновение патологий определяется большим числом стохастических факторов. Поэтому болезни, физиологические реакции и функциональные состояния человека представляют собой случайный процесс. Соответственно МБС являются реализациями случайных процессов. При этом, по одной реализации (сигналу) принимать решение можно только в случае стационарности и эргодичности патологического процесса.
10.2. методы статистической Обработки медико-биологических данных

В основе автоматизированных систем диагностики различных болезней лежат базы данных по показателям - МБС этих болезней, полученные в результате исследования здоровых и больных пациентов разного пола и возраста. Такие исследования называются эпидемиологическими.

В силу стохастичности патологических процессов физиологические показатели обладают значительной вариабельностью. Это привело к созданию разнообразных диагностических методов, алгоритмов и приборов, применение и изучение которых затруднено. В тоже время, стохастический характер МБС позволяет подойти к разработке систем обработки МБС как к системам передачи, преобразования и представления реализаций случайного процесса, формирования оценок статистических характеристик.

Случайной величиной x(k) называется функция множеств, определяемая в точках k выборочного пространства. Это действительное число, которое сопоставляется каждой выборочной точке.

Под выборочным пространством понимают возможные исходы измерений, представляющих собой множество точек.

Наиболее простой оценкой случайной величины является ее среднее значение (первый момент).

Если имеется выборка значений

x = (x1, x2, …, xk, …, xN)

по данному физиологическому показателю X, среднее значение можно вычислить по формуле



Например, общеизвестный физиологический показатель – температура T внутренних полостей тела взрослого человека в норме имеет среднее значение μT = 36,6o C. Повышенное или пониженное значение Т, точнее разность |μT – T| является первичным диагностическим показателем различных заболеваний.

Однако, одного диагностического показателя для идентификации болезни в общем случае недостаточно и используют набор или вектор физиологических показателей. При этом широко используется кластерный анализ.

Кластерный анализ.

На сегодняшний день МБС регистрируются и анализируются многочисленными методами. Все их можно условно разделить на три большие группы:



  1. Визуальные (качественные):

Врач наблюдает за МБС и на основании предыдущих наблюдений и знаний, полученных опытным путем, делает какие-либо заключения. Несмотря на низкую точность (со стороны математического описания) этот вариант наиболее распространен и, при наличии достаточного опыта врача дает высокие результаты.

  1. Математические (количественные):

При обработке МБС вычисляются его всевозможные параметры, на основании анализа которых врач должен поставить диагноз. С точки зрения математической реализации, значительно более точны, однако требуют достаточно высокого уровня знаний врача в области теории вероятности и математической статистики, вследствие чего не везде приветствуются.

Решение диагностической задачи (отнесение объекта к норме или патологии) связано с риском ложной тревоги (ошибка 1-го рода) или пропуска цели (ошибка 2-го рода). Для принятия обоснованного решения привлекают методы теории статистических решений, разработанных впервые в радиолокации.

3) Смешанные:

Представляют собой совокупность 1 и 2 методов. К этой группе можно отнести кластерный и контурный методы анализа. Это направление является наиболее перспективным, так как не требует значительных специфических знаний в математической области от врача и в то же время анализируемая информация отображается графически, что наиболее привычно и удобно для врача. Использование цветовой гаммы в методах контурного и кластерного анализа особенно эффективно с физиологической точки восприятия.

Формально под задачей кластерного анализа заданного множества объектов понимается задача разбие­ния этого множества объектов на непересе­кающиеся подмножества - кластеры таким образом, чтобы элементы, относимые к одному подмножеству, отличались между собой в значительно меньшей степени, чем элементы из разных подмножеств.

В многомерном пространстве диагностических показателей кластеры нормы и различных болезней отображаются «облаками» точек, расположенных в разных частях этого пространства, различно удаленных от «нормального облака».

В геометрическом отношении кластеры представляют собой пространственные образы тех или иных заболеваний. Распознавание этих пространственных образов позволяет автоматизировать диагностику.

Общая теория распознавания образов является теоретическим фундаментом для решения основной задачи медико-технической диагностики. Эта теория занимается распознаванием образов любой природы (геометрических, звуковых, текстовых и т. п.) и представляет раздел теории управления (кибернетики). Медико-техническая диагностика разрабатывает алгоритмы распознавания применительно к задачам диагностики, которые обычно рассматривают как задачи классификации.

Алгоритмы распознавания в медико-технической диагностике основаны на диагностических моделях. Эти модели устанавливают связь между состояниями биологического объекта и их отображениями – кластерами в пространстве МБС. Важной частью проблемы распознавания являются правила принятия решений (решающие правила).

Классификация образов с помощью функций расстояния — одна из первых идей автоматического распознавания образов. Этот простой метод классификации оказывается весьма эффективным инструментом при решении таких задач, в которых классы характеризуются степенью изменчивости, ограниченной в разумных пределах. Ниже подробно рассматриваются свойства и способы реализации классификаторов, работающих на основе критерия минимума расстояния.

Например, встречаются классы, которые можно характеризовать, выбрав по одному эталонному образу из класса.

В этих случаях образы любого из рассматриваемых классов проявляют тенденцию к тесной группировке вокруг некоторого образа, являющегося типичным или репрезентативным для соответствующего класса. Подобные ситуации возникают, если изменчивость образов невелика, а помехи легко поддаются учету.

Типичным примером служит задача считывания банковских чеков с помощью ЭВМ. Символы, помещаемые на чеках, сильно стилизованы и обычно наносятся магнитной печатной краской с тем, чтобы упростить процесс снятия показаний. В ситуациях, подобных этой, векторы измерений (образы) в каждом классе будут почти идентичны, поскольку одинаковые символы на всех практически используемых чеках идентичны. В таких условиях классификаторы, действующие по принципу минимального расстояния, могут оказаться чрезвычайно эффективным средством решения задачи классификации.

Иногда классы характеризуют, выбрав несколько эталонов из класса.



Допустим, что каждый класс можно охарактеризовать не единственным, а несколькими эталонными образами. Т. е. любой образ, принадлежащий классу А, проявляет тенденцию к группировке вокруг одного из эталонов Z1, Z2...ZNI, где ni — количество эталонных образов, определяющих i-й класс. В этом случае нужно воспользоваться иным классификатором.

Выбор функций расстояния в качестве инструмента классификации является естественным следствием того обстоятельства, что наиболее очевидный способ введения меры сходства для векторов образов, интерпретируемых нами также как точки в евклидовом пространстве — определение их близости.

В частности, изучая рис. 5, можно прийти к интуитивному выводу о принадлежности вектора X классу С1 исключительно из тех соображений, что этот вектор находится ближе к векторам образа класса С1, чем класса С2.
Рис. 10.1. Образы, поддающиеся классификации с помощью понятия близости.

Можно рассчитывать на получение удовлетворительных практических результатов при классификации образов с помощью функций расстояния только в тех случаях, когда классы образов обнаруживают тенденцию к проявлению кластеризационных свойств.

Интуитивным идеям необходимо придать общую форму и развить их на уровне соответствующей математической строгости.

Поскольку близость данного образа к образам некоторого класса используется в качестве критерия для его классификации, такой подход называют классификацией образов по критерию минимума расстояния. Так как кластеризационные свойства весьма существенно влияют на работу автоматических классификаторов, основанных на концепции расстояния, предложено несколько алгоритмов отыскания кластеров.

Необходимо отметить, что выявление кластеров во многих отношениях является «искусством» весьма эмпирическим. Качество работы определенного алгоритма зависит не только от характера анализируемых данных, но в значительной степени определяется выбранной мерой подобия образов и методом, используемым для идентификации кластеров в системе данных. Соответствующие понятия, рассматриваемые ниже, обеспечивают основу для построения систем распознавания без учителя.

На формальном уровне для определения кластера на множестве данных, необходимо в первую очередь ввести меру сходства (подобия), которая может быть положена в основу правила отнесения образов к области, характеризуемой некоторым центром кластера.

Ранее, на примере температуры тела, рассматривалось евклидово расстояние между образами х и z:

D = || x – z ||; (2.1)

Эту характеристику используют в качестве меры сходства соответствующих образов: чем меньше расстояние между ними, тем больше сходство. На этом понятии основаны алгоритмы, рассматриваемые далее.

Меры сходства не исчерпываются расстояниями. В качестве примера можно привести неметрическую функцию сходства
(2.3)

представляющую собой косинус угла, образованного векторами х и z, и достигающую максимума, когда их направления совпадают. Этой мерой сходства удобно пользоваться в тех случаях, когда кластеры обнаруживают тенденцию располагаться вдоль главных осей. Следует, однако, отметить, что использование данной меры сходства связано определенными ограничениями, например такими, как достаточная удаленность кластеров друг от друга и от начала координат.

Проблема определения процедуры разбиения анализируемых данных на кластеры остается открытой и после выбора меры сходства образов. Критерий кластеризации может либо воспроизводить некие эвристические соображения, либо основываться на минимизации (или максимизации) какого-нибудь показателя качества.

При эвристическом подходе решающую роль играют интуиция и опыт. Он предусматривает задание набора правил, которые обеспечивают использование выбранной меры сходства для отнесения образов к одному из кластеров. Евклидово расстояние хорошо приспособлено для подобного подхода, что связано с естественностью его интерпретации как меры близости. Поскольку, однако, близость двух образов является относительной мерой их подобия, обычно приходится вводить порог, чтобы установить приемлемые степени сходства для процесса отыскания кластеров.

Подход к кластеризации, предусматривающий использование показателя качества, связан с разработкой процедур, которые обеспечивают минимизацию или максимизацию выбранного показателя качества.

Одним из наиболее популярных показателей является сумма квадратов ошибки



(2.4)
где Nc — число кластеров, Sj — множество образов, относящихся к j-му кластеру,


(2.5)


вектор выборочных средних значений для множества Sj; Nj - число образов, входящих во множество Sj.

Показатель качества (2.4) определяет общую сумму квадра­тов отклонений характеристик всех образов, входящих в неко­торый кластер, от соответствующих средних значений по кла­стеру. Алгоритм, основанный на этом показателе качества, рас­сматривается ниже.

Естественно, существуют другие показатели качества. Вот некоторые широко распространенные пока­затели: среднее квадратов расстояний между образами в кла­стере; среднее квадратов расстояний между образами, входя­щими в разные кластеры; показатели, основанные на понятии матрицы рассеяния; минимум и максимум дисперсии, а также еще дюжина показателей качества, использовавшихся прежде.

Нередко применяются алгоритмы отыскания кластеров, осно­ванные на совместном использовании эвристического подхода и показателя качества. Подобной комбинацией является алгоритм ИСОМАД, рассматриваемый.

В свете преды­дущих замечаний о состоянии дел в области кластеризации это обстоятельство нельзя назвать неожиданным, так как качество отдельных алгоритмов отыскания кластеров в значительной сте­пени определяется способностями его авторов по части извле­чения полезной информации из анализируемых данных.

Алгоритмы, рассматриваемые ниже, служат для этого хорошей иллюстрацией.



Простой алгоритм выявления кластеров. Пусть задано множество N образов {х1, х2 ... хN}. Пусть также центр первого кластера zi совпадает с любым из заданных образов и определена произвольная неотрицательная пороговая величина Т; для удобства можно считать, что zi = xi.

Вычисляется расстояние D2i между образом х2 и центром кластера zi по формуле (2.1). Если это расстояние больше значения пороговой величины Т D2i > Т, то учреждается новый центр кластера z2 = х2. В противном случае образ Х2 включается в кластер, центром которого является zi.

Пусть условие D2i > Т выполнено, т. е. z2 — центр нового кластера. На следующем шаге вычисляются расстояния D31 и D32 от образа х3 до центров кла­стеров z1 и z2. Если оба расстояния оказываются больше порога Т, то учреждается новый центр кластера z3 = x3. В противном случае образ х3 зачисляется в тот кластер, чей центр к нему ближе.

Подобным же образом расстояния от каждого нового образа до каждого известного центра кластера вычисляются и сравниваются с пороговой величиной — если все эти расстояния превосходят значение порога Т, учреждается новый центр кла­стера. В противном случае образ зачисляется в кластер с самым близким к нему центром.

Результаты описанной процедуры определяются выбором первого центра кластера, порядком рассмотрения образов, значением пороговой величины Т и, конечно, геометрическими характери­стиками данных. Эти влияния иллюстрируются рис. 8, на кото­ром представлены три различных варианта выбора центров кластеров для одних и тех же данных, возникшие в результате изменения только значения порога Т и исходной точки кластеризации.

Простой алгоритм выявления кластеров обладает рядом очевидных недостатков. Однако он позволяет просто и быстро получить приблизительные оценки. основных характеристик заданного набора данных. Кроме того, этот алгоритм привлекателен с вычислительной точки зрения, так как для выявления центров кластеров, соответствующих определенному значению порога Т, требуется только одно­кратный просмотр выборки.


Рис. 10.2. Иллюстрация влияния выбора величины порога и исходных точек

Практически, чтобы хорошо понять геометрию распределения образов с помощью такой процедуры, приходится проводить многочисленные экспе­рименты с различными значениями порога и различными исход­ными точками кластеризации. Поскольку изучаемые образы обычно имеют высокую размерность, визуальная интерпретация результатов исключается. Поэтому необходимая информация добывается в основном при помощи сопоставления после каждого цикла просмотра данных расстояний, разделяющих центры кластеров, и количества образов, вошедших в различные кла­стеры.

Полезными характеристиками являются также ближай­шая и наиболее удаленная от центра точки кластера и различие размеров отдельных кластеров. Информацию, полученную таким образом после каждого цикла обработки данных, можно исполь­зовать для коррекции выбора нового значения порога Т и новой исходной точки кластеризации в следующем цикле. Можно рас­считывать на получение с помощью подобной процедуры полез­ных результатов в тех случаях, когда в данных имеются харак­терные «гнезда», которые достаточно хорошо разделяются при соответствующем выборе значения порога.

Алгоритм К внутригрупповых средних. Алгоритм, рассмотренный выше, является в сущности эвристической процедурой. Алгоритм К внутригрупповых средних, представленный ниже, минимизирует показатель качества, определенный как сумма квадратов расстояний всех точек, входящих в кластерную область, до центра кластера. Эта процедура, которую часто называют алгоритмом, основанным на вычислении К внутригрупповых средних, состоит из следующих шагов.

Шаг 1. Выбираются K исходных центров кластеров z1(l), z2(l) , ..., zK(l). Этот выбор производится произвольно, и обыч­но в качестве исходных центров используются первые К резуль­татов выборки из заданного множества образов.

Шаг 2. На k-м шаге итерации заданное множество образов {х} распределяется по К кластерам по следующему правилу:

(2.6)

для всех i - 1, 2 ..... К, i  j, где Sj (k) — множество образов, входящих в кластер с центром zj(k). В случае равенства в (2.6) решение принимается произвольным образом.

Шаг 3. На основе результатов шага 2 определяются новые центры кластеров zj(k+1), j= 1, 2 ..... К, исходя из условия, что сумма квадратов расстояний между всеми образами, при­надлежащими множеству Sj (k), и новым центром кластера должна быть минимальной.

Другими словами, новые центры кластеров zj(k+1) выбираются таким образом, чтобы миними­зировать показатель качества



(2.7)

Центр zj(k+1), обеспечивающий минимизацию показателя ка­чества, является, в сущности, выборочным средним, определен­ным по множеству Sj(k). Следовательно, новые центры класте­ров определяются как



(2.8)

где Nj - число выборочных образов, входящих в множество Sj (k).

Очевидно, что название алгоритма «К внутригрупповых средних» определяется способом, принятым для последователь­ной коррекции назначения центров кластеров.

Шаг 4. Равенство zj(k+1) = zj(k), при j=1, 2 ..... К является условием сходимости алгоритма, и при его достижении выполнение алгоритма заканчивается. В противном случае алго­ритм повторяется от шага 2.

Качество работы алгоритмов, основанных на вычислении К внутригрупповых средних, зависит от числа выбираемых цент­ров кластеров, от выбора исходных центров кластеров, от после­довательности осмотра образов и, естественно, от геометриче­ских особенностей данных. Хотя для этого алгоритма общее до­казательство сходимости не известно, приемлемые результаты можно ожидать в тех случаях, когда данные обра­зуют характерные гроздья, отстоящие друг от друга достаточно далеко. В большинстве случаев практическое применение этого алгоритма потребует проведения экспериментов, связанных с выбором различных значений параметра К и исходного распо­ложения центров кластеров.

Алгоритм ИСОМАД. Алгоритм ИСОМАД (Итеративный Самоорганизующийся Метод Анализа Данных, английское название Isodata — Iterative Self-Organizing Data Analysis Techniques) в принципе аналогичен процедуре, предусматривающей вычисление К внутригрупповых средних, поскольку и в этом алгоритме центрами кластеров служат выборочные средние определяемые итеративно. Однако в отличие от предыдущего алгоритма ИСОМАД обладает обширным набором вспомогательных эвристических процедур, встроенных в схему итерации. Это определение «эвристические» следует постоянно иметь в виду, поскольку целый ряд описываемых ниже этапов вошел в алгоритм в результате осмысления эмпирического опыта его использования.

До выполнения алгоритма следует задать набор Nc исходных центров кластеров z1, z2 ..... zNc . Этот набор, число элементов должно быть равно предписанному ко­личеству кластеров, может быть получен выборкой образов из заданного множества данных.

При работе с набором {x1, х2, …, xN}, составленным из N элементов, алгоритм ИСОМАД выполняет следующие основные шаги.

Шаг 1. Задаются параметры, определяющие процесс класте­ризации:

К - необходимое число кластеров;

N - параметр, с которым сравнивается количество выбо­рочных образов, вошедших в кластер;

S - параметр, характеризующий среднеквадратичное от­клонение;

C - параметр, характеризующий компактность;

L - максимальное количество пар центров кластеров, кото­рые можно объединить; I - допустимое число циклов итерации.

Шаг 2. Заданные N образов распределяются по кластерам, соответствующим выбранным исходным центрам, по правилу ,

применяемому ко всем образам х, вошедшим в выборку; через Sj обозначено подмножество образов выборки, включенных в кластер с центром zj.

Шаг 3. Ликвидируются подмножества образов, в состав ко­торых входит менее N элементов, т. е. если для некоторого j выполняется условие Nj N, то подмножество Sj исключается из рассмотрения и значение Nc уменьшается на 1.

Шаг 4. Каждый центр кластера zj, j=1, 2 … Nc, лока­лизуется и корректируется посредством приравнивания его вы­борочному среднему, найденному по соответствующему подмно­жеству Sj , т. е.

,

где Nj - число объектов, вошедших в подмножество Sj.

Шаг 5. Вычисляется среднее расстояние Dj между объек­тами, входящими в подмножество Sj, и соответствующим цент­ром кластера по формуле

Шаг 6. Вычисляется обобщенное среднее расстояние между объектами, находящимися в отдельных кластерах, и соответ­ствующими центрами кластеров по формуле



Шаг 7. а) Если текущий цикл итерации — последний, то задается C = 0, переход к шагу 11. б) Если условие Nc  K/2 выполняется, то переход к шагу 8. в) Если текущий цикл ите­рации имеет четный порядковый номер или выполняется условие Nc  2K, то переход к шагу 11; в противном случае процесс итерации продолжается.

Шаг 8. Для каждого подмножества выборочных образов с помощью соотношения

вычисляется вектор среднеквадратичного отклонения , где n есть размерность образа, xik есть i-я компонента k-ro объекта в подмножестве Sj, zij есть i-я ком­понента вектора, представляющего центр кластера zj, и Nj - ко­личество выборочных образов, включенных в подмножество Sj. Каждая компонента вектора среднеквадратичного отклонения j характеризует среднеквадратичное отклонение образа, вхо­дящего в подмножество Sj, по одной из главных осей координат.

Шаг 9. В каждом векторе среднеквадратичного отклонения sj, j=1, 2 ..... Nc отыскивается максимальная компонента sj max.

Шаг 10. Если для любого sj max , j=1, 2, …, Nc выполняются условия sj max > QC и

a)

или


б) Nc K/2,

то кластер с центром zj расщепляется на два новых кластера с центрами zj+ и zj- соответственно, кластер с центром zj ликви­дируется, а значение Nc увеличивается на 1. Для определения центра кластера zj+ к компоненте вектора zj, соответствующей максимальной компоненте вектора sj, прибавляется заданная величина j; центр кластера zj- определяется вычитанием этой же величины gj из той же самой компоненты вектора zj. В качестве величины gj можно выбрать некоторую долю значения максимальной среднеквадратичной компоненты sj max, т. е. по­ложить gj = ksj max, где 0 j следует руководствоваться в основном тем, чтобы ее величина была до­статочно большой для различения разницы в расстояниях от произвольного образа до новых двух центров кластеров, но до­статочно малой, чтобы общая структура кластеризации суще­ственно не изменилась.

Если расщепление происходит на этом шаге, надо перейти к шагу 2, в противном случае продолжать выполнение алгоритма.

Шаг 11. Вычисляются расстояния Dij между всеми парами центров кластеров:



.

Шаг 12. Расстояния Dij сравниваются с параметром QC. Те L расстояний, которые оказались меньше QC , ранжируются в по­рядке возрастания:



,

причем , a L - максимальное число пар центров кластеров, которые можно объединить. Следующий шаг осуществляет процесс слияния кластеров.

Шаг 13. Каждое расстояние вычислено для определен­ной пары кластеров с центрами и . К этим парам в последовательности, соответствующей увеличению расстояния между центрами, применяется процедура слияния, осуществляе­мая на основе следующего правила. Кластеры с центрами и i=1, 2...L, объединяются (при условии, что в текущем цикле итерации процедура слияния не применялась ни к тому, ни к другому кластеру), при­чем новый центр кластера определяется по формуле

Центры кластеров и ликвидируются и значение Nc уменьшается на 1.

Следует отметить, что допускается только попарное слияние кластеров. Центр полученного в результате кластера рассчитывается, исходя из позиций, занимаемых центрами объединяемых класте­ров и взятых с весами, определяемыми количеством выборочных образов в соответствующем кластере.

Опыт свидетельствует, что использование более сложных процедур объединения кластеров может привести к получению неудовлетворительных результатов. Описанная процедура обеспечивает выбор в качестве центра объединенного кластера точки, представляющей истинное среднее сливаемых подмножеств образов. Важно также иметь в виду, что, поскольку к каждому центру кластера процедуру слияния можно применить только один раз, реализация данного шага ни при каких обстоятельствах не может привести к получению L объединенных кластеров.

Шаг 14. Если текущий цикл итерации — последний, то вы­полнение алгоритма прекращается. В противном случае следует возвратиться либо к шагу 1, если по предписанию пользователя меняется какой-либо из параметров, определяющих процесс кластеризации, либо к шагу 2, если в очередном цикле итерации параметры процесса должны остаться неизменными. Заверше­нием цикла итерации считается каждый переход к шагам 1 или 2.

Ниже приведены графики (рис. 10, 11), полученные в результате обработки одних и тех же данных с помощью алгоритма К внутригрупповых средних и алгоритма ИСОМАД соответственно.

На основе приведенных данных можно сделать вывод о том, что целесообразнее пользоваться вторым алгоритмом, т. к. его «чувствительность» выше.

Из этого примера ясно, что при­менение алгоритма ИСОМАД к набору данных умеренной сложности в принципе позволяет получить интересные резуль­таты только после проведения обширных экспериментов.

Выяв­ление структуры данных может быть, однако, существенно ускоренно благодаря эффективному использованию информации, получаемой после каждого цикла итерационного процесса.

Эту информацию можно использовать для коррекции параметров процесса кластеризации непосред­ственно при реализации алгоритма. Для требуется доработка процедуры ИСОМАД.



Рис. 10.3. Результат обработки данных с помощью процедуры К

Рис. 10.4. Результат обработки данных с помощью процедуры ИСОМАД

Требование нахождения однозначной - четкой кластеризации элементов исследуемой области характеристических признаков заболевания является достаточно грубым и жестким. Особенно плохо это требование работает при ре­шении таких слабо структурируемых задач, как дифференциальная диагностика ранних стадий заболеваний. Методы нечеткой кластеризации, основанные на аппарате нечетких множеств, ослабляют это требование в результате введения нечетких кластеров и соответствую­щих им функций принадлежности.


  1   2


База данных защищена авторским правом ©infoeto.ru 2022
обратиться к администрации
Как написать курсовую работу | Как написать хороший реферат
    Главная страница