Занятие №1 «Оптимизация информационного поиска» Создайте на своём компьютере в программе Word документ

Скачать 377.26 Kb.

страница	1/3
Дата	27.09.2016
Размер	377.26 Kb.

1 2 3

Семинарское занятие № 1
«Оптимизация информационного поиска»

Создайте на своём компьютере в программе Word документ
Сохраните его под именем: Пример: «Иванов_Иван_01»
Выполняйте все задания на своем компьютере
После окончания занятия сохраните файл в папке «405» на компьютере администратора сети.

Назовите основные каналы информации при написании курсовых работ
Оцените, какой объем информации вы получаете из этих каналов (в процентном отношении).
Перечислите основные механизмы поиска информации в сети Интернет.
Укажите тему вашей дипломной работы.
Сформулируйте несколько ключевых слов, отражающих содержание вашей темы.
Сформулируйте информационный запрос для поисковой машины. Осуществите запрос и укажите количество полученных ссылок на ресурсы удалённого доступа (страниц и сайтов).
Ознакомьтесь с Приложением № 1. Оптимизируйте запрос, получите результат и укажите количество полученных ссылок. В случае необходимости, проведите оптимизацию вновь, чтобы минимизировать количество полученных ссылок. Фиксируйте в документе все варианты модификации вашего информационного запроса.
Составьте коллекцию ссылок на ресурсы удаленного доступа (страницы и сайты), которые соответствуют теме вашего исследования. Помимо ссылок, составьте краткую аннотацию выявленного ресурса удаленного доступа.

Приложение № 1

Принципы организации и поиска информации в Интернете ^¹
Поиск информации в Интернете проводится двумя основными способами — с помощью каталогов (их еще называют директориями) и поисковых машин.

Директории обеспечивают контекстный поиск для структурированного просмотра, тогда как поисковые машины, как следует из их названия, контекста не обеспечивают, однако позволяют находить конкретные слова или фразы.

Директории можно уподобить оглавлению книги, а поисковые машины -предметному указателю.

Часто поисковые системы объединяют в себе как поисковую машину, так и директории.

Это хорошо видно на примере первой страницы Яндекса, где под поисковой строкой размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения вглубь каждой из них.

Ввиду того, что принцип организации директорий понятен каждому, кто пользовался библиотечным каталогом — а среди читателей таких, смеем полагать, подавляющее большинство, — мы не будем подробно останавливаться на технике работы с директориями и уделим больше внимания работе с поисковыми машинами. В завершение же разговора о каталогах приведем пример «цепочки», по которой осуществляется поиск в каталоге Яндекса: Бизнес > Реклама > Реклама в Интернете.

Все поисковые машины работают по одному и тому же алгоритму и основаны на одних и тех же принципах. Различия между ними возникают лишь на уровне технической реализации этих принципов в работе.

Чтобы понять принцип работы поисковой машины, попробуем разделить вопрос на две части: на чем основан поиск и как он реализован.

На чём основан поиск?
Все поисковые машины базируются на трех основных операторах, лежащих в основе Булевой алгебры (ее также называют Булевой логикой или Boolean).

Это логические операторы «И», «ИЛИ» и «НЕ». Работают они следующим образом.

1. Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результате поиска будут найдены лишь те документы, в которых содержатся оба слова. Так, например, по запросу

собака И кошка

будет найден документ, содержащий предложение «собака гналась за кошкой», документов же, состоящих из текста «кошка отдыхала» или «корм для собак», мы не увидим.

2. Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то результатом поиска станут документы, в которых содержится хотя бы одно из этих слов. Если мы не сделаем специальных ограничительных оговорок, то материалы, в которых оба эти слова присутствуют, также будут найдены.

По запросу

собака ИЛИ кошка

мы получим документы, исключенные в прошлом запросе и содержащие текст «кошка отдыхала» или «корм для собак», а также материал с предложением «собака гналась за кошкой».

3. Логическое «НЕ». Если два предыдущих оператора описывали те слова, которые вы хотите включить в запрос, то оператор «НЕ» слова из запроса исключает. Пользователи, впервые сталкивающиеся с операторами запросов, нередко высказывают удивление: мол, не проще ли и вовсе не включать ненужное слово в запрос? Зачем вводить дополнительный оператор? Увы, нет. Не проще.

На самом деле, чтобы понять важность логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам нужно, из имеющегося огромного, но все же конечного массива. При этом необходимо отсечь информационный мусор. Его-то мы и отсекаем с помощью оператора «НЕ». К сожалению, не нам решать, увидим ли мы этот мусор в выдаче. Так, например, по запросу сведений о коньке крыши неизменно появляется информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут никак не обойтись.

Давайте рассмотрим примеры работы логического оператора «НЕ». По запросу

собака НЕ кошка

будет найден документ, содержащий текст «корм для собак», а вот документы со словами «кошка отдыхала» или «собака гналась за кошкой», и даже «корма для собак и кошек» из выдачи будут исключены.

Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все вышеперечисленные операторы. В этом случае лучше пользоваться таким элементом, как круглые скобки. Скобки позволяют отделять однотипные слова запроса от остальных. Кроме того, самому составителю при этом визуально гораздо удобнее различать отдельные фрагменты запроса. Мы не будем чересчур теоретизировать о скобках, а просто продемонстрируем работу указанного элемента на конкретных примерах. На наш взгляд, так будет понятнее, как и для чего используются скобки.

Так, запрос

пушистые И (собаки ИЛИ кошки)

позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам — по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что больше углубляться в нее мы не будем).

А вот запрос

пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки)

выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не будет содержать текстов, где одновременно будут упомянуты и кошки, и собаки.

Еще раз повторимся, все поисковые машины сегодня работают на основе анализа этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут отличаться.
Как поиск реализован?
Каждая полноценная поисковая машина располагает собственным штатом роботов, или «пауков». Их еще называют краулерами (crawlers) и слайдерами (spiders). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая при этом в их содержание. После чего сбрасывают документы на серверы своих хозяев и идут к следующим страницам. Как «паук» определяет, куда ему пойти? Он находит так называемую гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони и при клике по которой происходит переход на другую страницу) и идет по ней. Вот почему, если на страницу не ведет ни одна ссылка, «паук» на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней поисковой машине, заполнив специальную форму на сайте поисковой машины.

На сервере поисковой машины текст разбивается на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес в Интернете, по которому текст размещался в момент посещения его «пауком».

Сам по себе поисковик представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Эти машины разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная «пауками».

Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.

При этом важно понять, как «паук» решает, с какой частотой ему следует посещать ту или иную страницу. Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, «паук» возвращается на нее, ну, например, через две недели. И если видит, что никаких изменений не произошло, он планирует следующее посещение через более длительный период — скажем, через месяц. А если и тогда не обнаружит ничего нового, то наведается сюда еще позже, месяца через полтора-два.

Вот почему нередко бывает так, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по полученной ссылке безрезультатна — вероятнее всего, никакой страницы уже просто не существует на прежнем месте, но «паук» на нее давно не заходил, и, соответственно, поисковая система о ее удалении не знает.

Весь комплекс процессов, описанных выше, называется индексацией.
История развития поисковых машин

История эволюции поисковых машин наиболее полно, на наш взгляд, представлена в книге признанных экспертов в области невидимого Интернета Криса Шермана (Sherman) и Гэри Прайса (Price) «Невидимый Интернет» (Price G., Sherman С. The Invisible Web: Uncovering Information Sources Search Engines Can't See. CyberAge Books, 2001.)

До середины 1960-х гг. компьютеров было немного. Изолированные друг от друга, они не могли обмениваться информацией.

В 1962 г. профессор Ликлайдер (Licklider) из ведущего технического вуза США — Массачусетского технологического института — сформулировал концепцию Глобальной компьютерной сети «Galactic Network». Идея начала воплощаться в жизнь сотрудником американского министерства обороны Ларри Роббертсом (Larry Robberts), который через четыре года после публикации статьи профессора предложил объединить отдельные компьютеры министерства в сеть, описанную Ликлайдером. Таковы предпосылки возникновения сети «ARPANET», которая затем превратилась в то, что сегодня величают Интернетом. Первый узел «ARPANET» появился в 1969 г., и следующие несколько лет к нему подключа-

Русскоязычные поисковые машины появлялись в такой последовательности:

• 1996 г. — Rambler (www.rambler.ru);

• 1997 г. — Yandex (www.yandex.ru);

• 2004 г. — русскоязычная версия Google (www.google.ru) и русскоязычная версия Yahoo! (http://ru.yahoo.com).

Из чего состоит сайт
Прежде чем перейти к описанию языка запросов поисковых машин, рассмотрим, из каких элементов, с которыми предстоит работать «пауку», состоит обычно сайт.

Надо сказать, что язык HTML достаточно прост и логичен. Он представляет собой способ разбивки текста с помощью специальных элементов — тегов, которые определяют структуру и внешний вид текста при просмотре его в браузере. О тегах следует знать, что они всегда парные и что они бывают открывающими (обозначают начало определенного форматирования) и закрывающими (обозначают его окончание). Закрывающий тег — такой же по написанию, как открывающий, но перед ним стоит косая черта

Приведем пример очень простого сайта:

Это простой сайт

Это текст на сайге Обычный шрифт Жирный шрифт.

Курсив

''А что - гиперссылка"
Наверху страницы, изображенной на рисунке, то есть не в тексте сайта, а на верхнем поле рамки страницы, рядом с круглым значком браузера, расположена надпись: «Показываем устройство сайта». Она находится в так называемом заголовке страницы (который заключен между открывающим тегом ). Обращаем ваше внимание на то, что это заголовок именно всей страницы, а не текста.

Посередине представленного рисунка жирным курсивом выведено: «Это простой сайт». Данная надпись и есть заголовок текста. Шрифт фразы «Это простой сайт» по размеру превосходит шрифт текста на сайте, он специально выделен как заголовок текста. При разметке с помощью HTML этот текст расположен ниже тега находится внутри тега

1 2 3

База данных защищена авторским правом ©infoeto.ru 2022
обратиться к администрации
Как написать курсовую работу | Как написать хороший реферат