Сегментно-целостная структура канала речевого управления программными системами




Скачать 111.48 Kb.
Дата01.10.2016
Размер111.48 Kb.
УДК 681.3:519.816

СЕГМЕНТНО-ЦЕЛОСТНАЯ СТРУКТУРА КАНАЛА РЕЧЕВОГО УПРАВЛЕНИЯ ПРОГРАММНЫМИ СИСТЕМАМИ

И.Ю.Бондаренко1, С.А. Гладунов2, О.И. Федяев3

Рассматривается включение речевого интерфейса в программные системы на примере текстового процессора Microsoft Word с целью повышения эффективности работы пользователя. Предлагается структура речевого канала интерфейса на основе взаимодействия сегментной и целостной систем распознавания, первая из которых реализована в нейросетевом, а вторая – в нечётком базисе.

Введение

Рассматривается проблема создания средств речевой коммуникации между человеком и компьютерными системами. Добавление речевого канала в контур управления сложными человеко-машинными системами позволит значительно повысить эффективность их работы. Такой сложной с точки зрения интерактивного взаимодействия системой является современный текстовый редактор, предоставляющий пользователю большое количество функциональных возможностей и связанных с ними команд по вводу и редактированию различного типа информации. Рациональное сочетание речевого и стандартного визуального способов управления процессом ввода и редактирования текстовой информации позволит снизить нагрузку на тактильно-зрительные каналы человека и тем самым повысить эффективность его работы. О востребованности речевого интерфейса свидетельствует и возросшее число коммерческих разработок систем, использующих речевой интерфейс. Так, NaturallySpeaking фирмы Dragon System позволяет редактировать и форматировать текст с помощью собственного текстового процессора без использования клавиатуры и мыши. Компания IBM разработала аналогичную программу, позволяющую осуществлять речевой ввод и форматирование текста в текстовом процессоре MS Word. На практике эти программы показывают недостаточно высокие результаты (при тестировании точность не достигла даже 90% [Лукьянюк, 2006]).

Данная статья посвящена разработке системы речевого управления, которая основана на сегментно-целостной модели восприятия речевого сигнала. Эта бионическая модель базируется на представлении о мозге как о двухканальной системе применительно к обработке звуковой речи [2]. Каналы сегментного и целостного восприятия, соответствующие левому и правому полушариям головного мозга, действуют параллельно, обеспечивая высокую скорость и надёжность распознавания. В статье предлагается реализация первого канала в виде нейросетевого пофонемного распознавателя, а второго – в виде нечёткого классификатора целостных паттернов (слов).

1. Структура двухканальной системы распознавания речевых команд

Современные представления о механизмах речевой деятельности человека [Морозов и др., 1988] положены в основу двухканальной системы речевого управления. Общая структура такой системы, дополняющей традиционные средства интерактивного взаимодействия человека и компьютера (клавиатуру и графический манипулятор типа «мышь»), изображена на рис.1. В качестве объекта управления использован текстовый редактор Microsoft Word как программная система со сложным интерфейсом, использование которого приводит к значительным нагрузкам на тактильно-зрительный канал пользователя.

Функциональная схема работы двухканальной системы распознавания речевых команд представлена на рис. 2. В звуковом сигнале, поступающем на вход системы, определяются границы речевого участка – предполагаемой речевой команды – на основе функций кратковременной энергии сигнала, числа переходов через нуль и количества точек постоянства. Далее выделенная речевая команда параллельно анализируется сегментным и целостным каналами. Сегментный канал основан на методе скользящего фонетического анализа [Федяев и др., 2002], а целостный канал – на методе нечёткого DTW-сопоставления образов [Федяев и др., 2006]. Эти каналы формируют независимые наборы слов-претендентов, т.е. слов, к каждому из которых с определённым коэффициентом уверенности может быть отнесена распознаваемая команда. На последнем уровне схемы, используя наборы слов-претендентов и соответствующие им коэффициенты уверенности, проводится согласование приближённых решений сегментного и целостного каналов и принимается окончательное решение о распознаваемой команде.


Рис. 1. Структура речевого канала управления текстовым

редактором MS Word


Рис.2. Схема сегментно-целостной модели распознавания речи



2. Целостная модель распознавания

Целостный подход к распознаванию речи основан на методе нечёткого DTW-сопоставления паттернов входного сигнала с хранящимися в памяти целостными эталонами [Федяев и др., 2006]. В качестве паттернов рассматриваются слова, набор которых определяет словарный состав речевого командного интерфейса с редактором MS Word.

Речевое слово представляется в виде двумерного спектрального временного образа (СВО), получаемого с помощью оконного преобразования Фурье (рис.3а). СВО позволяет выделить местоположение резонансных частот, т.е. локальных выбросов, что является определяющей особенностью речевого сигнала [Асаи и др., 1993]. На этом основании СВО преобразуется к двоичному виду с помощью замены: 1 – на месте локального выброса, 0 – в других местах. Полученный образ является двоичным спектральным временным образом (ДСВО) и используется как отражение особенностей речевого сигнала (рис.3б).

Рис. 3. Пример спектрально-временного представления слова

“автоформат”: а – СВО; б – ДСВО
Для корректного сопоставления речевых образов необходимо провести их выравнивание по длине. Эта процедура выполнена с помощью нелинейного выравнивания, учитывающего неравномерность протекания сигнала во времени [Винцюк, 1987], для чего использовался алгоритм, основанный на определении наилучшего соответствия входных и эталонных речевых образов, известный как метод DTW [Wrigley, 2006]. В отличие от алгоритма линейного приведения длин, применяемый алгоритм осуществляет выравнивание входного ДСВО и эталонного образа только на спектрально подобных фрагментах.

Для распознавания изолированных слов, нормализованных по времени, применялся метод нечёткого сопоставления с эталоном [Асаи и др., 1993]. Эталонные образы для каждого слова словаря формировались как среднее арифметическое ДСВО различных вариантов произношения этого слова. В результате формируется бинарное нечёткое отношение между множеством F (номеров частот f) и множеством T (номеров временных интервалов t) в виде ,: F R T , где R – нечёткое отношение, которое ставит каждой паре элементов величину функции принадлежности . Набор нечётких отношений определяет словарь эталонов размером n.

Распознаваемый образ y рассматривается как обычное (чёткое) отношение между множеством частот и множеством временных интервалов. Для него вычисляются степени сходства Sj с каждым нечётким отношением rj , и результатом распознавания является номер j слова в словаре, такой, что , где

.

Были проведены экспериментальные исследования, направленные на определение качества распознавания речевых команд по методу нечёткого сопоставления при линейном и нелинейном выравнивании образов. Для эксперимента использовалась речевая однодикторная база данных, включавшая в себя звукозаписи шести речевых команд управления текстовым процессором: “Автоформат”, “Жирный”, “Курсив”, “Маркеры”, “Найти”, “Нумерация”. Каждая речевая команда была представлена 30 реализациями, 15 из которых использовались для обучения системы, а 15 – для тестирования. Результаты распознавания слов тестового множества представлены в табл. 1.

Таблица 1. Результаты тестирования системы




Автоформат

Жирный

Курсив

Маркеры

Найти

Нумерация

Итого, %

Автоформат

15

0

0

0

0

0

100,00

Жирный

0

15

0

0

0

0

100,00

Курсив

0

0

15

0

0

0

100,00

Маркеры

0

0

0

15

0

0

100,00

Найти

0

0

0

0

15

0

100,00

Нумерация

0

0

0

0

0

15

100,00

3. Сегментная модель распознавания

Сегментный подход к распознаванию речи основан на фонетическом анализе речевого сигнала. Предложен метод, основанный на определении меры сходства фрагмента речевого сигнала с каждой из фонем с последующим выбором наиболее достоверной фонетической цепочки [Федяев и др., 2002].

Пусть Aw(t) – акустическое представление высказывания w; Fk(t) – акустическое представление некоторой фонемы. Требуется определить, является ли фонема, описываемая Fk(t), фрагментом высказывания AW(t).

Представим Fk(t) на отрезке [t0 , t1] в виде множества пар

{(X/(t), Y/(t))}, (3.1)

где X/(t)=(Fk(t m), Fk(t m +1),…Fk(t – 1)), m=const; Y/(t)=Fk(t); t0 tt1 . Аналогично представим Aw(t) в виде множества пар {X(t), Y(t)}.

Представление Fk(t) в виде (3.1) позволяет сформировать нейросетевую функцию NET: NET(X/(t)) = Y/(t). Тогда мера отличия Errk участка Aw(t) при t[tн , tк] от Fk(t) определяется: Errk(t) =Y(t) – NET(X(t)).

Таким образом, получаем новое параметрическое описание исходного сигнала:



Aw(t)  (Err1(t), Err2(t) … Errn(t)),

где Errk(t) – мера отличия участка сигнала Aw(t) от k-й фонемы на фрагменте сигнала длительности m.

Новое параметрическое описание исходного сигнала имеет преимущества, связанные с более высокой стабильностью описания на стационарных участках, а также с интерпретируемостью полученных величин. Однако сложная форма и значительная нестабильность речевого сигнала не позволяют сделать вывод о фонеме по отдельным мгновенным значениям мер отличия Errk(t). Поэтому результаты распознавания усредняются на достаточно большом участке времени. Полученное параметрическое описание сигнала используется при дальнейшей контекстной обработке, как это показано на схеме распознавания (рис. 2).

Первый уровень схемы состоит из набора нейронных сетей, каждая из которых обучена распознаванию отдельной фонемы. Выходы сетей интерпретируются как прогноз следующих значений сигнала при условии, что имеет место соответствующая фонема. На втором уровне ошибка прогноза накапливается на всей протяженности окна сегмента речи. Интегральная ошибка поступает на третий уровень, где из всех фонем выбираются наилучшие. Полученный набор участвует в формировании фонетических цепочек, представляющих собой гипотезы о произносимом слове. Произнесённое слово определяется по цепочке с наибольшей степенью достоверности.

Работа метода проиллюстрирована на примере распознавания слова «один» (рис.4). В примере задействовано четыре фонемы. Для аппроксимации использованы трехслойные сети типа «многослойный персептрон» с 20 входами и количеством нейронов в слоях 20-10-1. Количество входов определялось в соответствии с оценкой периода основного тона для данного диктора. В обучении использовано по 10 реализаций каждой фонемы одного диктора.

На рис.4 видно, что минимумы ошибки последовательно достигаются на участках сигнала, соответствующих заданным фонемам.



Рис. 4. Графики меры отличия входного сигнала от различных фонем для двух вариантов произнесения слова «один»: (- - -) – линия наименьших ошибок, определяющая наилучшую цепочку фонем

4. Согласование приближённых решений сегментного и целостного каналов

Каждый канал не может сформировать однозначное решение задачи распознавания речевых команд. Достоверность получаемых приближённых решений описывается коэффициентами уверенности. В нечёткой модели значения коэффициентов уверенности слов-претендентов определяются на основе степеней сходства входного речевого образа с эталонными образами. Нейросетевая модель для каждого распознаваемого слова формирует множество цепочек фонем, из которого методом динамического программирования находятся наилучшие цепочки, определяющие слова-претенденты, и значения коэффициентов уверенности по отклонениям от соответствующих слов словаря. С помощью метода коэффициентов уверенности реализуется объединение предлагаемых каналами приближённых решений и выбирается наилучшее решение на конкурсной основе.



Выводы

Предложенные способы речевого управления текстовым редактором были реализованы в виде программного компонента ActiveX, интегрируемого с системой MS Word. Словарь системы распознавания включал 105 речевых команд. Точность распознавания этих команд превысила 90%.



Кроме того, в результате тестирования найден оптимальный баланс по критерию эргономичности между речевой и тактильно-зрительной составляющей интерфейса с текстовым редактором. Через речевой канал интерфейса целесообразно организовывать передачу наиболее употребительных команд, а также макрокоманд (последовательностей простых действий), связанных со сложным редактированием документа. Тактильно-зрительный канал целесообразно использовать для передачи команд, связанных с позиционированием фрагментов документа в пространстве.

Список литературы

[Асаи и др., 1993] Киедзи Асаи, Дзюндзо Ватада, Сокуке Иваи и др. Распознавание речи // Прикладные нечёткие системы. Под ред. Тэрано Т., Асаи К., Сугено М.. – М.: Мир, 1993.

[Винцюк, 1987] Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов.К.: Наукова думка, 1987.

[Лукьянюк, 2006] Лукьянюк В. Программы синтеза и распознавания речи. Тестовая лаборатория.http://art.bdk.com.ru/govor/1listr62t.htm.

[Морозов и др., 1988] Восприятие речи: вопросы функциональной асимметрии мозга / Морозов В.П., Вартанян И.А., Галунов В.И. и др. – Л.: Наука, 1988.

[Федяев и др., 2002] Гладунов С.А., Федяев О.И. Распознавание речи на основе нейросетевой аппроксимации фонем. // Сб. трудов VIII национальной конференции по искусственному интеллекту с междунар. участием КИИ-2002. – М.: Физматлит, 2002.

[Федяев и др., 2006] Бондаренко И.Ю., Федяев О.И. Анализ эффективности метода нечёткого сопоставления образов для распознавания изолированных слов // Сб. трудов VI междунар. науч. конференции «Интеллектуальный анализ информации ИАИ-2006». Под ред. Таран Т.А. – К.: Просвiта, 2006.

[Wrigley, 2006] Stuart N. Wrigley. Speech Recognition by Dynamic Time Warping. – http://www.dcs.shef.ac.uk/~stu/com326/index.html.

1 Украина, 83003, Донецк, ул. Артёма 58, ДонНТУ, bond005@yandex.ru

2 Украина, 83000, Донецк, ул. Артёма 58, ДонНТУ, gladunov@gmail.com

3 Украина, 83003, Донецк, ул. Артёма 58, ДонНТУ, fedyaev@r5.dgtu.donetsk.ua


База данных защищена авторским правом ©infoeto.ru 2016
обратиться к администрации
Как написать курсовую работу | Как написать хороший реферат
    Главная страница