Выбрать главу

Информационно-поисковые системы

Каталог – это, как правило, база данных, в которой хранятся адрес ресурса и его описание. Описание ресурса делается либо составителями каталога (как, например, на Yahoo!), либо тем, кто хочет включить его в каталог. В поисковой системе все происходит иначе.

Поисковые машины – это полностью автоматизированные системы, сканирующие сеть Internet. Ее сетевой агент (робот, «паук», «червяк») обходит все заданные ему серверы и собирает у себя индекс, то есть информацию о том, что и на какой странице было найдено. Сетевые агенты – это, по сути, программы, которые исследуют структуру гипертекста в Internet. Переходя от одного документа к другому, роботы передают собранную информацию поисковой системе, которая заносит ее в свою базу данных.

Основными функциями поисковых систем являются следующие:

• сбор статистики. Первые роботы были созданы именно для этого и определяли число страниц на сервере, типы присутствующих на нем файлов, их соотношения, средний размер страницы и т. д.;

• обслуживание. Имеются в виду такие функции, как сбор информации о неисправных ссылках и обновленных документах, проверка ссылок сайтов, авторы которые самостоятельно подали регистрационную заявку, и др.;

• поиск новых ресурсов. Необязательно регистрировать сайт собственноручно – это может сделать робот, поскольку он постоянно ищет новые ресурсы. Однако может уйти много времени.

Полнотекстовые поисковые машины индексируют все слова, найденные на Web-странице, за исключением стоп-слов (обычно малоинформативных и имеющих незначительную частоту употребления, например, союзов и предлогов).

Каждый день поисковые системы «прочесывают» Web-сайты и сохраняют текстовую информацию в своих огромных каталогах, чтобы завсегдатаи Internet могли по ключевым словам получить список Web-страниц. Как правило, в результате находятся сотни соответствующих запросу ресурсов, но отображаются они на экране «порциями» по 10–25 записей. В первую очередь выведены наиболее подходящие, согласно оценке поисковой системы, страницы.

В связи с этим становится понятным нарастание интереса разработчиков Web-узлов к поисковым службам, которые оказываются в состоянии обеспечить до 40 %, а в некоторых случаях, и до 70 % обращений к сайту.

Использование поисковых систем для продвижения Web-узла не может гарантировать успеха, если разработчик не учел целый ряд тонкостей этой процедуры. Так, далеко не всегда очевидно, какие из поисковых систем наиболее значимы для увеличения посещаемости. Исчерпывающий ответ на этот вопрос может дать только анализ статистики посещений узла после регистрации. Кроме того, чтобы обеспечить практическую, а не только теоретическую доступность своего сайта из списка отклика по тому или иному запросу, необходимо учитывать особенности функционирования отдельных сервисов.

Поиск информации в русскоязычной части Internet облегчает существование специальных поисковых средств. Принцип их действия аналогичен работе традиционных баз данных, когда в ответ на ввод ключевого слова выдается перечень документов, содержащих искомое понятие. Эти системы являются, по сути, базами таких слов, пополняемыми при периодическом сканировании содержимого серверов Internet. С помощью специальных программ-роботов поисковые системы регулярно обследуют Internet, фиксируя, как вновь появившиеся, так и обновленные ресурсы, и удаляя сведения о ресурсах, вышедших из употребления. Этот колоссальный материал с указанием ссылок на то, где хранится каждое слово, содержится в виде гигантских индексных файлов, к которым и обращаются поисковые системы при конкретном запросе.

Достоинства и недостатки поисковых машин определяются различными характеристиками. Принципиальным является то, насколько полно система обследует документы: все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, первых нескольких строк или страниц текста, и т. д. Важна также периодичность обновления данных и критерии оценки понятий при определении степени их соответствия запросу. Не последнюю роль играют простота и удобство интерфейса, возможность использовать булевы операторы (операторы математической логики) и операторы расстояния между словами в тексте документа, а также дополнительные сервисные функции, например, поиск новостей, музыкальных файлов, товаров, и т. д.

В обслуживание, осуществляемое информационно-поисковой системой, входит предварительная обработка текста, в том числе составление индекса, по которому затем происходит поиск. Такая поисковая система может быть организована как база данных с текстовыми полями. Другой вариант организации – работа с внешними текстами. В этом случае тексты сохраняют первоначальный вид, то есть остаются файлами в файловой системе, страницами на сервере или полями какой-то другой базы данных, а индекс снабжается лишь ссылками на соответствующие источники.