В Сети вы входите в любимую поисковую систему, например, в Яndex (www.yandex.ru), и набираете в поисковой строке: «+Борис+Пастернак». И дальше разбираетесь с теми ссылками, которые просыплются на голову. Это наблюдение, очевидное для любого пользователя Сети, подводит нас к определенным выводам об отличиях существования текста в Интернете от его же печатного близнеца.
Для того чтобы свободный поиск стал возможен, необходимо совершенно другое устройство сетевого пространства, чем пространства офлайн. Офлайновое пространство не является реально односвязанным — оно не едино. То есть, отталкиваясь от той же библиографии Пастернака, вы почти наверняка не сможете прийти по ссылкам, например, к описанию логики истины фон Вригта. И даже если такая последовательность ссылок существует, найти ее за обозримое время скорее всего не удастся. (Интересно, что теперь, после того как написана эта фраза с двумя фамилиями, — как раз удастся, а в Сети даже наверняка.) Информационное пространство вне Сети подразумевает априорное наличие классификаций и специализаций, которые определяются принадлежностью знания к той или иной области.
В Сети ситуация кардинально меняется. Весь объем информации укладывается в некоторый общий вид, например, в структуру — html (hyper text mackup language — язык гипертекстовой разметки), и становится доступен для тотального поиска — безо всякого различия и разграничения. Сеть — это первый и единственный на сегодняшний день информационный объект, в котором принципиально возможен свободный поиск по всему объему информации, накопленному человечеством на сегодняшний день, час, минуту… Нужно сразу оговориться, что глобальный поиск возможен только в принципе. На деле это не совсем так. Существует очень много ресурсов, которые закрыты для поисковых систем. Оценить их количество трудно, но по разным оценкам это от 30 до 70 процентов всей информации, размещенной в Сети. Это ресурсы, закрытые парольным входом, — конфиденциальные — или ресурсы, динамически порождаемые сервером на основании внешнего интерактивного запроса. Но даже при этих неизбежных ограничениях свободный поиск очень эффективен. Правда, надо уметь им пользоваться. Под логотипом Яndex написано: «Найдется все». А если в результате поиска не найдено ни одного ресурса, надпись меняется: «Найдется все. Со временем».
Теперь я подошел к тому, чтобы сформулировать основное утверждение этих заметок: главное отличие литературного произведения в Сети от печатной литературы заключается в том, что его читают не только люди. Его читают и даже по мере сил и интеллекта рецензируют роботы поисковых систем.
Это возможно в силу единства сетевого пространства и стандартного представления информации в нем и приводит к тому, что поисковые системы образуют замыкание Сети и делают его односвязанным.
Поисковый робот — программа, которая непрерывно, двадцать четыре часа в сутки, семь дней в неделю, читает одну за другой выставленные в Сети страницы и строит по ним поисковые индексы. От того, как работает эта программа, от того, как использует построенные индексы поисковый портал, зависит в конечном счете, насколько доступной окажется та или иная страница. Подробности работы любой конкретной поисковой системы, будь то Яndex или Google (www.google.com), практически никогда не афишируются авторами. Но многие принципы индексирования и поиска лежат на поверхности, и о них можно сказать.
Все тексты в Сети проиндексированы в разной степени: одни подробно и тщательно — можно зарегистрировать ресурс в поисковой системе и тем обратить на него ее внимание, другие — проигнорированы поисковыми системами вовсе (в частности, при формировании страницы можно «попросить» робот не индексировать ваш ресурс) и потому недоступны при свободном поиске.
В первую очередь индексируются и наиболее легко находятся при поиске синтаксически выделенные конструкции языка. И здесь нужно иметь в виду, что в Сети текст пишется и представляется не на естественном языке — русском или английском, а на языке разметки документа — html или dhtml. И конечно, более понятны поисковой программе именно синтаксические конструкции этих языков. То есть она регистрирует титулы, ключевые слова, заголовки всех уровней, ссылки, начала абзацев и другие элементы формальной структуры и обязательно также имена собственные.
Поставим простой эксперимент. Попытаемся отыскать, используя Яndex, «Анну Каренину» Льва Толстого. Сначала для поиска используем первую фразу романа: «Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему». Количество найденных адресов будет очень велико, и не все они будут указывать на роман. Некоторые — на собрания афоризмов. Я задам более жесткое требование и буду искать в найденном эпиграф к роману: «Мне отмщение, и Аз воздам». В результате отбора поисковая система выдаст одиннадцать адресов, из которых десять действительно будут указывать на текст романа Толстого.