Лекция 7
Компьютерная лексикография
Понятие компьютерной лексикографии. Электронный словарь. Отличие электронных и традиционных словарей. Состав словарной статьи. Виды электронных словарей. Преимущества электронных словарей. Перспективы компьютерной лексикографии.
1. Понятие компьютерной лексикографии.
Компьютерная лексикография представляет собой раздел прикладной лингвистики, нацеленный на создание компьютерных словарей, лингвистических баз данных и разработку программ поддержки лексикографических работ.
Основными задачами традиционной и компьютерной лексикографии являются определение структуры словаря и зон словарной статьи, а также разработка принципов составления различных видов словарей.
Словарь традиционно определяется как организованное собрание слов с комментариями, в которых описываются особенности структуры и/или функционирования этих слов.
2. Электронный словарь. Отличие электронных и традиционных словарей.
Электронный (автоматический, компьютерный) словарь — это собрание слов в специальном компьютерном формате, предназначенное для использования человеком или являющееся составной частью более сложных компьютерных программ (например, систем машинного перевода). Соответственно, различаются автоматические словари конечного пользователя-человека (АСКП) и автоматические словари для программ обработки текста (АСПОТ).
Автоматические словари, предназначенные для конечного пользователя, чаще всего являются компьютерными версиями хорошо известных обычных словарей, например:
• Оксфордский словарь английского языка (www.oed.com),
• автоматический толковый словарь английского языка издательства «Коллинз» (www.mycobuild.com),
• автоматический вариант «Нового большого англо-русского словаря» под ред. Ю.Д. Апресяна и Э.М. Медниковой (http://eng-rus. slovaronline. com),
• словарь Ожегова онлайн (http://slovarozhegova.ru).
Автоматические словари такого типа практически повторяют структуру словарной статьи обычных словарей, однако они обладают функциями, недоступными своим прототипам, например, осуществляют сортировку данных по полям словарной статьи (ср. отбор всех прилагательных), проводят автоматический поиск всех вокабул, имеющих в толковании определенный семантический компонент, и т.д.
Автоматические словари для систем машинного перевода, автоматического реферирования, информационного поиска и т.д. (АСПОТ) по интерфейсу и структуре словарной статьи существенно отличаются от АСКП. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют. Такой словарь может содержать от одной до сотни зон словарной статьи. Чрезвычайно разнообразны и области лексикографического описания: морфологическая, лексическая, синтаксическая, семантическая и т.д.
Структура традиционного словаря обычно включает следующие компоненты:
• введение, объясняющее принципы пользования словарем и дающее информацию о структуре словарной статьи;
• словник, включающий единицы словаря: морфемы, лексемы, словоформы или словосочетания; каждая такая единица с соответствующим комментарием представляет собой словарную статью;
• указатели (индексы);
• список источников;
• список условных сокращений и алфавит.
В электронных словарях из названных компонентов обязательным является, пожалуй, лишь словник, в онлайн-словарях нередко имеется также алфавит с заложенными за каждой буквой гиперссылками, ведущими к тексту словарной статьи. Практически в каждом электронном словаре, предлагаемом на диске (оффлайн-словарь) или в Интернете (онлайн-словарь) имеется функция автоматического поиска, позволяющая значительно экономить усилия пользователя при работе со словарем.
Отличие электронных словарей от «бумажных» касается также их мультимедийности и гипертекстуальности: эти свойства выражены в электронных словарях в значительно большей степени, чем в печатных. Так, гиперссылки могут быть заложены за любым элементом словарной статьи или пунктом программного меню словаря. Это дает пользователю дополнительные возможности по поиску и быстрому переходу к необходимой словарной информации, позволяя найти синонимы и антонимы к заданному слову, слова той же семантической группы, парадигмы склонения и спряжения и т.д.
Гиперссылки позволяют также легко связывать разные словари друг с другом, так что в итоге онлайн- или оффлайн-словари оказываются коллекциями или порталами словарей. Получив необходимую информацию, например, о значении слова, пользователь одним нажатием ссылки может перейти к комментариям этого слова в других словарях и узнать особенности его толкования в специальных отраслях знания (терминологические словари) или получить дополнительную лингвистическую информацию о его форме.
Отдельные электронные словари имеют также дополнительные возможности, например, электронный многоязычный словарь ABBYY Lingvo хЗ (© 2008 ABBYY) предоставляет функцию обучения (ABBYY Lingvo Tutor), позволяющую запоминать слова, отобранные по конкретной теме и представленные парами: русское и иностранное слово, составлять новые словари и словарные карточки, сохранять результаты обучения в файл и т.д.
В итоге структура электронного словаря в значительной степени отличается от структуры словаря печатного, хотя основная часть словаря — словник со словарными статьями — продолжает составлять ядро словаря в обоих случаях.
3. Состав словарной статьи.
Структура словарной статьи достаточно типична и обычно включает следующие зоны словарной статьи, актуальные как для традиционной, так и для компьютерной лексикографии:
• лексический вход (вокабула, лемма);
• зона грамматической информации;
• зона стилистических помет;
• зона значения;
• зона фразеологизмов;
• зона этимологии;
• зона примера и источника примера.
Правда, можно выделить зоны словарной статьи, обязательные для всех словарных единиц, и факультативные зоны. Обязательной зоной словарной статьи для разных видов словарей является лишь лексический вход, все остальные зоны зависят от типа словаря: например, для толкового словаря необходима зона значения, а для орфоэпического она необязательна. Зона фразеологии отсутствует в комментариях слов, не используемых в устойчивых сочетаниях, а наличие зоны примера и его источника зависит от принципов, лежащих в основе создания словаря.
Количество зон словарной статьи компьютерного словаря обычно превышает количество зон словарной статьи «бумажного» словаря, что обусловлено значительными ресурсами памяти и высокой скоростью обработки цифровой информации современными компьютерами. Но объем предлагаемой словарной информации должен соответствовать виду словаря: если читателю нужно произношение, то «лишняя» информация о переводе проверяемого слова или его контекстных значениях будет только мешать пользователю.
4. Виды электронных словарей.
Классификацию компьютерных словарей можно осуществлять на тех же принципах, что и классификацию обычных словарей. Традиционно выделяются лингвистические, энциклопедические и промежуточные (лингвострановедческие и терминологические) словари. В лингвистических словарях описываются сами слова — их значения, особенности употребления, структурные свойства, сочетаемость, соотношение с лексическими системами других языков и т.д. В энциклопедических словарях описываются понятия, факты и реалии окружающего мира, т.е. экстралингвистическая информация. Промежуточный тип словарей включает информацию и лингвистического, и экстралингвистического рода.
Среди лингвистических словарей можно выделить несколько их видов:
• толковые, имеющие целью толкование (объяснение) значений слов и их употребления в речи, включающие дескриптивные и нормативные словари, которые, кроме того, могут быть общими и частными, среди последних выделяются, например, фразеологические словари, словари иностранных слов и т.д.;
• словари-тезаурусы, отличающиеся расположением словарной статьи, которое подчинено не алфавитному, а тематическому принципу, например, тезаурус русской идиоматики включает семантическое поле «УХОД, ОТЪЕЗД, БЕГСТВО», которое помещена в категорию «ДВИЖЕНИЕ», семантическое поле «ДАВНО» помещено в категорию «ВРЕМЯ» и т.д.;
• двуязычные (переводные) словари, например, «Англо-русский словарь» В.К. Мюллера (1-е издание появилось в 1943 г.), «Французско-русский словарь активного типа» под ред. В.Г. Гака и Ж. Триомфа и др.;
• ассоциативные словари, объектом которых является сфера ассоциативных отношений в лексике; словарная статья такого словаря включает лексему-стимул и список упорядоченных по частоте и алфавиту (с указанием частоты) реакций, полученных в психолингвистическом эксперименте, например: «Ассоциативный тезаурус современного русского языка»;
• исторические и этимологические словари, предоставляющие информацию об истории слов, начиная с определенной даты на протяжении некоторого периода, с указанием возникновения новых слов и значений, их отмирании и видоизменении, или объясняющие происхождение слов;
• словари языковых форм, которые фиксируют особенности формы слов и в которых толкования значений отсутствуют или играют вспомогательную роль, например, орфографические и орфоэпические, словообразовательные и морфемные (показывают, как слова складываются из морфем и инвентаризуют их), грамматические (информация по каждому слову, позволяющая по строить любую грамматически правильную форму), обратные словари (слова располагаются по алфавиту не начальных, а конечных букв, и выравниваются не по левому, а по правому краю: герб, серб, ущерб, горб, дуб);
• словари речевого употребления: словари трудностей и сочетаемости слов;
• ономастиконы: антропонимические словари и топонимические словари;
• нетрадиционные, подвергающие словарному описанию нетипичные лингвистические объекты, например, «Словарь русских политических метафор» А.Н. Баранова и Ю.Н. Караулова [5], словари поэтических метафор, эпитетов, авторские словари и словари конкордансов.
Например, известны такие электронные энциклопедии, как Энциклопедия Британника (www.britannica.com), «Большая энциклопедия Кирилла и Мефодия» (www.megabook.ru) и энциклопедия «Кругосвет» (www.krugosvet.ru).
Примерами переводных электронных словарей выступают ABBYY Lingvo (www.lingvo.ru), Translatelt! (www.translateit.ru) и Multitran (www.multitran.ru).
Электронные толковые словари — это, в частности, словарь Merriam Webster (www.merriam-webster.com) и словарь французского языка «Tresor de la langue francaise» (http://atilf. atilf.fr); Словарь Ефремовой (http://slovar.plib. ru/dictionary/d1/); Словарь Ожегова (http://slovar.plib.ru/dictionary/d19/)
Формальными электронными словарями являются орфографические словари русского (http://slovari.yandex.ru) и английского (www .spellcheckonline .com) языков.
Большую коллекцию словарей разных видов на дисках и в Интернете предоставляет издательство Duden (немецкий язык, www. duden.de) и Larousse (французский язык, www.larousse.fr).
5. Преимущества электронных словарей.
Компьютерные словари обычно создаются на базе корпусов текстов с использованием средств автоматической обработки и поиска словарных единиц. Для этого привлекаются специальные программы — базы данных, компьютерные картотеки, программы обработки текста, которые позволяют автоматически формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Так, создание электронного словаря, согласно А.Н. Баранову, включает следующие этапы:
1) формирование корпуса текстов и параллельно создание словника;
2) автоматическое формирование корпуса примеров;
3) написание словарных статей;
4) ввод словарных статей в базу данных (БД);
5) редактирование словарных статей в БД;
6) корректура текста в БД;
7) порождение текста словаря и формирование оригинал-макета;
8) печать словаря.
Конечно, приведенное описание процесса создания электронного словаря может корректироваться в зависимости от его вида, исследовательских принципов и других факторов, ср. комментарии создателей электронного исторического словаря русского языка. Но в любом случае использование компьютеров и уже готовых корпусов текстов в компьютерной лексикографии позволяет уменьшить количество этапов в процессе создания электронного словаря и сэкономить время практически на каждом из них.
Так, вместо создания словарной карточки в компьютерной лексикографии используются базы данных. Записи баз данных дают возможность автоматически сортировать массив по выбранным параметрам, отбирать нужные примеры, объединять их в группы и т.д. Специализированных программных оболочек для лексикографических целей на рынке практически нет. Для этих целей вполне подходят современные базы данных типа ACCESS или PARADOX. Для поиска примеров создатели словарей могут использовать компьютерные программы построения конкордансов, например, DIALEX. Для создания оригинал-макета (верстки) словарей привлекаются издательские системы типа Page-Maker или WinWord, которые позволяют приписывать стили зонам словарных статей, алфавитизацию, создание указателей и т.д.
Пожалуй, единственный пример специализированной компьютерной программы, предназначенной для компьютерных лексикографических работ, является «Программа автоматизированного составления и обработки словников» (авторы: М.В. Литус, Е.В. Литус). Эта программа достаточно активно используется в филологических исследованиях и подробно представлена в учебном пособии А.Т. Хроленко и А.В. Денисова.
Электронные словари имеют положительные стороны не только в процессе их создания, но и в процессе использования. В частности, выделяются следующие преимущества в использовании электронных словарей:
1) Использование мультимедийных средств. Электронные словари позволяют по-разному представить содержание словарной статьи (различные «проекции» словаря), в том числе с помощью разнообразных графических и мультимедийных средств, которые не используются в обычных словарях;
2) Использование современных технологий. В выдаваемой информации находят отражение различные технологии компьютерной лингвистики, например морфологический и синтаксический анализ, распознавание и синтез звука и т.п.;
3) Удобный поиск. Становится возможным быстро получить информацию, которая содержится где-то в недрах словаря и непосредственно отвечает тому запросу, который сформулирован пользователем в удобной для него форме. Нет необходимости помнить слово в точности, программа сама предложит варианты по первым буквам.
4) Актуальность и динамичность. Электронный словарь позволяет быстро реагировать на изменения в языке и мире, и выпуск каждой последующей его версии или внесение изменений в онлайн-версию не занимает много времени и труда.
5) Большой объем словарной базы. У большинства электронных словарей терминологическая база превышает базу бумажных словарей и предоставляет более удобный доступ к информации за счет использования гиперссылок.
6) Вариативность в использовании — возможность использования словарей в локальной и глобальной сетях, т.е. использование оффлайновой и онлайновой версии.
7) Универсальность — как правило, программы позволяют работать сразу с несколькими языками и направлениями перевода. Возможно использование любого из включённых в словарь языков в качестве входного.
6. Перспективы компьютерной лексикографии.
Несмотря на наличие значительного числа преимуществ использования электронных словарей, остаются нерешенными некоторые проблемы, актуальные как для традиционной, так и для компьютерной лексикографии.
• В словарях должно найти отражение понятие лексической функции, позволяющее систематически описывать несвободную сочетаемость слов, иллюстрируемую следующими примерами русского языка: «войну ведут», а «экзамен — держат», «теории выдвигают», а «мысли подают» и т.п.
• Не нашла отражение в массовой лексикографической практике проблема описания семантики и практической реализации грамматического словоизменения и словообразования. Каждый язык имеет свои собственные способы грамматического кодирования смысла, которые не описываются в массовых словарях систематически. Например, как передать по-английски смысл «довыпендриваться», даже если знаешь, как передать «выпендриваться»?
• В словарях не существует даже системы понятий, с помощью которой синтаксическая информация могла бы быть доведена до обычного читателя. Решением этой проблемы могли бы стать интегральные словарные описания, основанные на формальных моделях, учитывающие прогрессивные лексикографические идеи. На этих же моделях следует организовать технологии доступа к словарному содержанию.
Названные проблемы могут быть решены при сотрудничестве лексикографов-теоретиков и практиков, а компьютерные инструменты, несомненно, облегчат рутинную работу по осуществлению монотонных лексикографических операций.
В целом констатируем, что компьютерная лексикография, направленная на создание электронных словарей, представляет собой весьма перспективное и нужное направление компьютерной лингвистики, поскольку создаваемые ею продукты — электронные словари — отличаются многогранностью, мультимедийностью, интеграцией новейших технологических решений, актуальностью материала и отвечают потребностям пользователя в организации доступа к необходимой информации.
|