Выпускная работа по предмету «Основы информационных технологий» использование информационных технологий в лингвистике




Скачать 182.45 Kb.
Дата06.09.2016
Размер182.45 Kb.


Белорусский государственный университет

Выпускная работа по предмету



«Основы информационных технологий»

ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ЛИНГВИСТИКЕ

Аспирант

филологического факультета

кафедры теоретического и славянского языкознания

Базылева Ирина Сергеевна

Руководители:

доктор филологических наук, профессор

Н.Б. Мечковская

старший преподаватель П.П. Кожич

Минск − 2011 г.


Оглавление


Оглавление 3

Реферат на тему «Использование информационных технологий в лингвистике» 4

Введение 5

ГЛАВА 1
ЗНАЧЕНИЕ КОРПУСНОЙ ЛИНГВИСТИКИ В СОВРЕМЕННых исследованиях по ЯЗЫКОЗНАНИю 7



1.1. Ключевые понятия корпусной лингвистики: корпуса текстов, корпусный анализ 7

1.2. Универсальные и специальные корпуса текстов 9

Глава 2
Использование интернет-ресурсов в Лингвистическом исследовании 11



2.1. Современное состояние ресурсов Интернет, посвященных проблемам лингвистики 11

2.2. Контент-анализ ресурсов Интернет, посвященных вопросам лингвистики 13

Заключение 16

список литературы к реферату 17

ИНТЕРНЕТ РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ ИССЛЕДОВАНИЯ 19

Действующий личный сайт в сети Интернет 21

Граф научных интересов 22

Презентация кандидатской диссертации 24

Тестовые вопросы по Основам информационных технологий 25

Приложение 26

Реферат на тему «Использование информационных технологий в лингвистике»

Введение


На современном этапе развития таких, на первый взгляд, непересекающихся дисциплин как лингвистика и информационные технологии, с уверенностью можно говорить о зависимости лингвистики от технических возможностей современной компьютерной науки. С другой стороны, информационные технологии заимствуют некоторые методы лингвистики. На стыке двух дисциплин появилась наука компьютерная лингвистика, а также была создана лингвистическая база знаний, которая составляет основу «лингвистического компонента» некоторых компьютерных систем [2, 225]. К числу таких систем относятся системы искусственного интеллекта, машинного перевода, автоматического порождения текстов и др. К области компьютерной лингвистики относится практически все, что связано с использованием компьютеров в языкознании.

Огромную роль информационные технологии (далее ИТ) стали играть при обучении иностранным языкам, в процессе алгоритмизации лингвистических задач, при обработке лингвистических текстов и т.д. (см. Зубов 2004). Использование информационных технологий в лингвистике стало необходимостью. Однако в реальности для лингвистических задач используется лишь небольшая часть всего объема ИТ: электронные словари и справочники, некоторые программы пакета Microsoft Office. Наиболее распространенной лингвистической задачей в нашей стране является поиск информации в сети Интернет [3, 239].

К сожалению, значительный потенциал современных информационных технологий остается незадействованным, вследствие недостаточной компьютерной грамотности филологов, отсутствия финансирования научно-исследовательских проектов по прикладным вопросам лингвистики, узкоспециальных интересов исследователей и ряда других причин.

Цель данной работы – выявить основные способы и области применения информационных технологий в лингвистическом исследовании.

Настоящая работа состоит из введения, двух глав, заключения, списка использованных источников в количестве 13 наименований, а также предметного указателя.

Во введении обосновывается актуальность исследуемой темы. В первой главе освящаются основные понятия корпусной лингвистики, а также пути ее применения в языковом исследовании. Во второй главе характеризуется современное состояние Интернет-ресурсов, анализируются проблемы лингвистического поиска в Сети, проводится контент-анализ некоторых сайтов в Интернет.


ГЛАВА 1
ЗНАЧЕНИЕ КОРПУСНОЙ ЛИНГВИСТИКИ В СОВРЕМЕННых исследованиях по ЯЗЫКОЗНАНИю

1.1. Ключевые понятия корпусной лингвистики: корпуса текстов, корпусный анализ


Корпусная лингвистика занимается разработкой общих принципов построения и использованием лингвистических корпусов, т.е. коллекций текстов, специально отобранных и размеченных по различным лингвистическим параметрам и обеспеченных системой поиска. Впервые мысль о том, что достоверные данные о фонетической, морфологической, синтаксической и семантической структуре языка и речи могут быть получены только из большого массива текстов, были высказаны Р.Г. Пиотровским в докладе «Статистическое исследование лексики и грамматики текста с помощью электронной машины» [12].

С помощью корпусов текстов могут решаться самые различные задачи, поэтому работа с ними стала одним из ведущих методов лингвистических исследований [6, 68-77]. Так, на основе анализа множества текстов можно сделать вывод об интересующем исследователя языковом явлении, например, о поведении грамматической или синтаксической конструкции, использовании выразительных средств в естественной языковой среде, т.е. в реально существующих, а не искусственно сконструированных контекстах. Кроме того, корпусные исследования позволяют, используя статистические методы, сформулировать, подтвердить или опровергнуть гипотезу о том или ином языковом явлении на большом объеме материала. При этом, если исследователь пользуется уже существующим корпусом, он полностью минует долгий и трудоемкий этап сбора материала (опрос информантов, работа со словарными картотеками или письменными текстами). Таким образом, возможность широкого применения электронных ресурсов, с одной стороны, значительно облегчила филологам и лингвистам процесс сбора информации, с другой же стороны, ужесточила требования к доказательной базе лингвистических исследований.

Центральным понятием корпусной лингвистики является письменный текстовый массив или корпус текстов. В лингвистической литературе существует несколько определений корпуса текстов. Например, А.Н.Баранов рассматривает корпус текстов как вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области. При этом под корпусом данных понимается сформированная по определенным правилам выборка данных из проблемной области, т.е. из области реализаций языковой системы, содержащей феномены, и которая подлежит лингвистическому описанию [1, 112-113].

А.В. Зубов рассматривает корпус текстов «как совокупность текстов, являющихся достаточной основой для обеспечения надёжных научных выводов о некотором языке или ином другом подмножестве языка»[4, 64]. Вслед за D.Biber, S.Conrad, R.Reppen А.В.Зубов под корпусным анализом понимает использование корпусов текстов для проведения лингвистического анализа и выделяет следующие особенности этого вида анализа:

1. Он является исключительно эмпирическим, так как опирается на анализ реальных примеров, использованных в естественных текстах.

2. Его основой является специальным образом построенное большое собрание текстов естественных языков.

3. Он широко использует компьютерный анализ, в том числе автоматические и интерактивные приемы.

4. Он опирается на количественный и качественный аналитический прием [4, 64].

Существует несколько требований, предъявляемых к составу и структуре корпуса. Во-первых, это требование полноты. Любое языковое явление, сколь бы редким оно ни было, должно найти отражение в корпусе. Во-вторых, требование репрезентативности. Корпус должен отражать те или иные параметры исследуемого языкового явления в той же пропорции, что и в языке вообще. Важным параметром корпуса также является его объем. Так, если первые корпуса достигали миллиона словоупотреблений, то объем современных корпусов исчисляется сотнями миллионов или даже миллиардами (известно, что объем корпуса английского языка Bank of English превышает 2,5 млрд. слов).

1.2. Универсальные и специальные корпуса текстов


Выделяют два основных типа корпусов: универсальный и специальный, и в зависимости от этого разрабатываются критерии и процедуры отбора текстов в корпус. Универсальный корпус текстов создается для отражения внешней по отношению к нему речевой деятельности и может быть использован для всестороннего исследования. Примерами универсальных корпусов текстов могут служить корпусы того или иного естественного языка. Например, Британский национальный корпус (http://www.natcorp.ox.ac.uk), Национальный корпус русского языка (www.ruscorpors.ru). Существуют также национальные корпуса для немецкого, китайского, финского, чешского и других языков. Специальный корпус составляется для решения определенной задачи и может быть использован исключительно в тех целях, для которых он создан (к примеру, для обучения иностранному языку и т.д.). Современные средства позволяют быстро сформировать весьма обширный корпус текстов практически по любой тематике, причем, сделать это может каждый, кто владеет основными навыками работы с ПК и Интернетом.

Большинство современных корпусных менеджеров (т.е. программ, обеспечивающих сортировку результатов поиска, статистические подсчеты, составление конкордансов и словников на основе корпуса) позволяют осуществлять поиск различного рода информации. Например, поиск конкретных словоформ, поиск словоформ по лемме (т.е. поиск всех форм одного и того же слова, встретившихся в тексте), поиск неразрывных и разрывных словосочетаний. Более того, благодаря наличию специальной метаразметки, пользователь имеет возможность создавать свой подкорпус текстов, отобранных по жанру, тематике, времени написания и т.д. Каждый из примеров выдачи снабжается информацией об источнике, откуда взят пример. В некоторых корпусах также возможно получать статистическую информацию о том или ином языковом явлении; его относительную частоту, распределение по жанрам или временным срезам, частоту его сочетаемости.


Глава 2
Использование интернет-ресурсов в Лингвистическом исследовании

2.1. Современное состояние ресурсов Интернет, посвященных проблемам лингвистики


Интернет как глобальная компьютерная сеть, использующая стандартизованные протоколы (TCP/IP) и объединяющая более 50000 сетей, стал не просто «вершиной человеческой мысли», но развивающимся механизмом, непосредственным прототипом которого является человеческий мозг.

В настоящее время сеть Интернет, а также наиболее популярный сервис данной сети – WWW (World Wide Web), созданный в 1991 г., позволяют пользователям обмениваться практически любой информацией, получать доступ к разнообразным источникам информации, не расположенным в непосредственной близости. Отходя от чисто утилитарного бизнес-применения сети Интернет, современное общество начало грамотно, а главное – также стремительно – применять сервисы мировой сети в научных целях.

Ресурсы сети Интернет в значительном объеме задействованы и для решения ряда лингвистических задач. Так, развиваются сайты, созданные группами исследователей по определенной проблеме (http://www.ruslang.ru/; http://www.mapryal.org/), членами филологических кафедр на базе вузов (http://slavic.princeton.edu/events/calendar/detail.php?ID=1921; http://kateosia.by.ru/zaslugi.htm), либо пользователями-любителями, интересующимися современными лингвистическими проблемами (http://www.kluver.ru/). На данных сайтах в свободном доступе имеются тексты статей различных ученых, список имеющихся у них публикаций.

Наиболее популярным ресурсом последних лет стали так называемые «живые журналы» – онлайновые блоги (или дневники) пользователей, на страницах которых также организованы сообщества филологов (http://community.livejournal.com/philologist_ru/profile, http://community.livejournal.com/terra_linguarum/profile). Ценность данного ресурса не только в том, что с его помощью можно общаться со своими коллегами, но также и в том, что живые журналы служат источниками самой новой информации по различным тематическим разделам.

По сравнению с большим количеством разнообразных сайтов и живых журналов по лингвистике, использование других ресурсов Интернет незначительно. К их числу можно отнести базы данных (в том числе электронные словари и корпуса текстов) и системы машинного перевода он-лайн.

Для пользователя-лингвиста наличие словарных источников в Сети позволяет решить сразу несколько задач: быстрый доступ к источнику; качественно новый уровень работы с источником вследствие удобного интерфейса словаря online; одновременная работа с несколькими источниками и др. Кажущиеся простыми, данные задачи невозможно было бы решить, используя словари на бумажных носителях. На данном этапе развития лингвистики большинство специальных и переводных словарей имеют электронный формат, снабжены удобной системой поиска, позволяют не только просматривать, но и прослушивать отдельные компоненты словаря. Среды одноязычных словарей одним из первых был запущен словарь английского языка Merriam-Webster Online Dictionary (http://www.m-w.com). В сети Интернет особой популярностью пользуется ресурс «Словари и энциклопедии online» (http://dic.academic.ru/), а также официальный сайт AskOxford, на котором возможен поиск лексических единиц английского языка (http://www.askoxford.com/dictionaries/?view=uk) в различных словарях одновременно.

Для филологов-белорусистов доступен полноформатный сайт, на котором пользователи имеют доступ к ряду специальных словарей в режиме он-лайн. Данный продукт представляет интерес и в том отношении, что содержит корпус текстов на белорусском языке (http://knihi.com). Не меньшую значимость в исследовательских целях имеют корпуса текстов на русском (www.ruscorpors.ru) и английском языках (http://www.natcorp.ox.ac.uk).

Этот краткий обзор ресурсов Интернет позволяет признать, что объем сайтов, наличие большого числа форумов, словарей и энциклопедий может служить хорошим инструментом для исследователя-лингвиста. Однако не только количество веб-сайтов, сколько качество их содержания необходимо для того, чтобы считать их достаточно пригодными для исследовательской работы, в том числе, при написании диссертационного исследования.


2.2. Контент-анализ ресурсов Интернет, посвященных вопросам лингвистики


Прибегая к Интернет-ресурсам в работе над диссертационным исследованием, совершенно естественно, что первым шагом является поиск информации. Наиболее популярными поисковыми системами являются Google, Yandex, Yahoo, Rambler и некоторые другие. Правильная формулировка запроса неизменно приведет к искомому источнику. Выделяют следующие преимущества использования систем Интернет:

1) Быстрый поиск информации;

2) Идентификация источника информации;

3) Получение свежей информации;

4) Получение важных данных [3, 239].

Существует также ряд статей, помогающих пользователю искать необходимую информацию в Сети (например, Интернет ЛикБез). Однако, как совершенно справедливо отмечает Л.Е. Голубева, «полезной информации становится все больше, но найти что-либо необходимое – все сложнее» [3, 240].

В настоящее время некоторую трудность представляет поиск книг либо статей как отечественных, так и зарубежных лингвистов. Большинство авторов не «выкладывает», то есть не публикует свои статьи в Интернете. Для приобретения подобных работ необходима регистрация на сайте, оплата определенных взносов и только после этого пользователь получает доступ к статьям. Очевидно, что несколько иначе дело обстоит в России и в Беларуси. Многие лингвисты понимают преимущества Интернета и публикуют свои статьи на персональных сайтах, что, несомненно, облегчает доступ к ним широкого числа пользователей.

С другой стороны, появляются специальные сайты, содержащие многочисленные ссылки на источники в определенной предметной области (http://orus.slavica.org/taxonomy/term/12).

Следует также отметить, что не все сайты одинаково полезны для исследовательских целей. Интересным примером может служить форум «Международная конференция по компьютерной лингвистике» (http://www.dialog-21.ru/forum/actualtopics.aspx?bid=16). Внимание к данному ресурсу привлекает тот факт, что основными ведущими данного форума являются известные языковеды. Так, раздел «Лингвистическая семантика» возглавляет известный лингвист Ирина Кобозева (г. Москва). На форуме каждый пользователь имеет возможность задавать вопросы ведущему форума. Но очевидно, что самым информативным в данном случае являются именно ответы лингвиста. В этом, с одной стороны, недостаток форумов (они притягивают некомпетентных в области людей), а с другой стороны, благодаря быстрой обратной связи, специалисты могут ответить на вопросы большому количеству пользователей сразу, что было бы невозможно в иных случаях.

Кроме того, что до настоящего момента малодоступной в Сети является лингвистическая литература в виде монографий, диссертаций и проч. В популярных библиотеках, например, в Библиотеке Максима Мошкова (www.lib.ru) и некоторых других несмотря на имеющуюся литературу по экономике, физике, кибернетике отсутствует раздел, посвященный вопросам языкознания. И хотя многие библиотеки имеют свои он-лайн каталоги, саму работу получить через Интернет почти невозможно.

Все перечисленные ресурсы сети Интернет активно используются нами при написании диссертационного исследования. Особую значимость имеют корпуса текстов на различных языках и электронные словари. Не менее важными являются и банки лингвистических статей, которые размещены на сайтах вузов и ассоциаций лингвистов.

Заключение


В настоящее время область информационных технологий переживает мощнейший технологический бум. Сами информационные технологии приобретают новый статус и становятся инструментом в руках исследователя. Так, практически все лингвистические исследовании, включая даже такие масштабные как работы по составлению словарей и грамматик, так или иначе ориентированы на использование представительных корпусов текстов. Например, словари издательства Collins создавались на базе электронного языкового корпуса Bank of English, насчитывающего более 2,5 миллиардов слов. В поле зрения лингвиста имеется также огромное число сайтов, форумов, виртуальных библиотек. Приведенный нами обзор Интернет-источников по теме исследования далеко не полон. Однако он дает некоторое представление о количестве источников информации и ресурсах, представляющих интерес для исследователя. Интернет способен, как никакой другой ресурс, объединить исследователей из разных стран, организовать конференцию участников в Сети, сделать возможным их виртуальное общение.

Совершенно очевидно, что пройдет немного времени до момента, когда появятся заказы на компьютерные программы, призванные обеспечивать лингвистические цели и задачи. В частности, насущной остается проблема статистического подсчета и обработки лексических единиц, которая традиционно выполнялась вручную, но без чего немыслимо ни одно исследование в области языкознания.

Таким образом, на современном этапе развития техники компьютерная грамотность для филолога является уже не требованием, а необходимым условием и одной из составляющих профессионального успеха.

список литературы к реферату


  1. Баранов, А.Н. Введение в прикладную лингвистику / А.Н.Баранов. – М.: Эдиториал УРСС, 2001. – 360с.

  2. Голубева, Л.Е. Лингвистическая база знаний для генерации интернет-текстов / Л.Е. Голубева // Вестник МГЛУ. Сер. 1, Филология. Мн.: МГЛУ, 2006а. – №3 (23). – С. 225–239.

  3. Голубева, Л.Е. Лингвистические проблемы поиска информации в сети Интернет и способы из разрешения / Л.Е. Голубева // Вестник МГЛУ. Сер. 1, Филология. Мн.: МГЛУ, 2006б. – № 3 (23). – С. 239–249.

  4. Зубов, А.В. Алгоритм перевода терминологических словосочетаний с использованием параллельных текстов / А.В.Зубов // Теория и практика перевода. – 2005. - №1. – С.64-66.

  5. Зубов, А.В. Информационные технологии в лингвистике: Учеб. пособие / А.В. Зубов, И.И. Зубова. – М.: Издательский центр «Академия», 2004. – 208с.

  6. Зубов, А.В. Корпусная лингвистика: возможности и проблемы / А.В.Зубов // Актуальные проблемы компьютерной лингвистики: Сб. научных ст. Отв.ред. А.В.Зубов. – Минск: МГЛУ, 2005. – С.68-77.

  7. Кравченя, Э.М. Основы информатики, компьютерной графики и педагогические программные средства / Э.М. Кравченя. – Мн.: ТетраСистемс, 2004. – 319 с.

  8. Могилев, А.В. Учеб. пособие для студ. пед. вузов / А.В. Могилев, Н.И. Пак, Е.К. Хеннер; Под ред. Е.К. Хеннера. – 3-е изд., перераб. и доп. – М.: Издательский центр «Академия», 2004. – 848 с.

  9. Основные понятия и определения информационных технологий [Электронный ресурс]. – Режим доступа: http://www.rusedu.info/Article581.html. – Дата доступа: 01.02.2011.

  10. Острейковский, В.А. Информатика: учеб. для вузов / В.А. Острейковский. – Мн.: Высш. шк., 1999. – 511 с.

  11. Перепелкин, В. Пользователь персонального компьютера. Соверменный курс / В. Перепелкин; под ред. С.О. Крамарова. – Ростов н/Д: Феникс, 2002. – 704 с.

  12. Пиотровский, Р.Г. Статистическое исследование лексики и грамматики текста с помощью электронно-вычислительной машины / Р.Г. Пиотровский // Проблемы синхронного изучения грамматического строя языка: Материалы науч.конф. – М.: МГПИИЯ, 1965. – с.144-146.

  13. Татарников О. Вавилонское столпотворение в Интернете // КомпьютерПресс [Электронный ресурс]. – Режим доступа: http://compress.ru/Archive/CP/2005/2/2/. – Дата доступа: 01.03.2011.

  14. Microsoft Manual of Style for Technical Publications / Third Edition. – Microsoft Press, 2003. – 352 p.

  15. Microsoft Press Computer Dictionary / Third Edition. – Microsoft Press, 1998. – 336 p.

M

Merriam-Webster Online Dictionary 12

W

World Wide Web 11



Б

Библиотеке Максима Мошкова 15

ж

живые журналы 12



к

компьютерная сеть 11

корпус текстов 13

корпус текстов на английском языке 13

корпус текстов на русском языке 13

К

Корпусная лингвистика 7



п

поисковые системы 13

преимущества использования систем Интернет 13

р

ресурсы сети Интернет 11



с

сайт AskOxford 12

сообщества филологов 12

С

Специальный корпус 9



У

Универсальный корпус 9

ф

форум 14

ИНТЕРНЕТ РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ ИССЛЕДОВАНИЯ


http://president.gov.by Сайт Президента Республики Беларусь

http://bsu.by Сайт белорусского государственного университета. Содержит в числе других разделов направления научной работы, объявления о научных конференциях.

http://kateosia.by.ru Сайт кафедры теоретического и славянского языкознания Белорусского государственного университета

http://www.ruscorpora.ru На этом сайте помещен корпус современного русского языка объемом более 140 млн. слов.

http://www.narusco.ru/ Это Корпус русского литературного языка, который отражает употребление слов, словоформ, грамматических конструкций, словосочетаний русского языка, начиная с середины 20в. и до настоящего времени.

http://www.natcorp.ox.ac.uk/ Здесь помещен Британский национальный корпус (BNC), включающий более 100 млн. слов.

http://www.americannationalcorpus.org/ Это Американский национальный корпус (ANC)

http://dic.academic.ru На этом сайте можно найти словари и энциклопедии в режиме online по различным предметным областям

http://www.askoxford.com Это официальный сайт AskOxford, на котором возможен поиск лексических единиц английского языка.

http://www.scientificjournals.org На этом сайте в открытом доступе размещены англоязычные журналы практически по всем научным дисциплинам, в том числе и гуманитарным, например, Journal of Literature, Language and Linguistics.

http://www.hnu.edu/ishs/ Это сайт Международного общества по изучению юмора (International Society for Humor Studies)

Действующий личный сайт в сети Интернет



http://ir-s-b.narod2.ru

,



Граф научных интересов


аспиранта Базылевой И.С.

филологический факультет

Специальность 10.02.19. – Теория языка


Смежные специальности



10.02.04 – Германские языки

  1. Исследование современных германских  языков и их диалектов на фонетическом, фонологическом, морфологическом, синтаксическом, словообразовательном и лексико-семантическом уровнях в синхронном и диахронном аспектах.

  2. Контакты германских языков между собой и с другими языками в различные исторические периоды.

  3. Разработка методов лингвистического анализа.






10.02.02 – Русский язык

1. Синхронические, диахронические и типологические проблемы становления, развития и функционирования русского языка.

2. Функциональные стили русского языка, жанры речи.

3. Изучение контактов русского языка с соседними славянскими и неславянскими языками.




Основная специальность


10.02.19. – Теория языка

  1. Сущность и структура языка, место языка в обществе и жизни человека как средстве хранения и передаче информации.

  2. Вопросы эволюции языка на его различных уровнях.

  3. Языки и диалекты, зафиксированные в письменной форме.

  4. Закономерности фонетической, фонологической, морфологической, просодической, интонационной, синтаксической, словообразовательной, лексической, фразеологической, стилистической организации языка.






Сопутствующие специальности


10.02.08 – Теория литературы. Текстология

1. Теория художественного перевода.

2. Проблема построения текстов.







Презентация кандидатской диссертации



http://ir-s-b.narod2.ru/prezentatsiya_/svoya_.ppt

Тестовые вопросы по Основам информационных технологий




Microsoft Word это:



графический редактор

текстовый редактор

редактор таблиц






В редакторе таблиц Microsoft Excel для возведения числа в степень используется клавиша:



$

*

^






В Microsoft Word чтобы выделить абзац целиком нужно:



щелкнуть на нем мышкой 2 раза

щелкнуть мышкой на полосе выделения при нажатой клавише Ctrl

дважды щелкнуть на полосе выделения




Приложение









База данных защищена авторским правом ©infoeto.ru 2016
обратиться к администрации
Как написать курсовую работу | Как написать хороший реферат
    Главная страница