Читать онлайн "Журнал "Компьютерра" N741-742" - Журнал Компьютерра - RuLit

Но главная цель и сущность Семантического Веба не в том, чтобы информация с отдельного ресурса была представлена в логичном, машиночитаемом виде, а в синергическом эффекте, происходящем от наличия глобальной сети ресурсов, "говорящих" на общем формальном языке. Переходя от уровня отдельного ресурса на уровень всеобщей Сети, наш гипотетический любитель клубнички может получить от своего интеллектуального агента биографии понравившихся моделей (включая сразу и ссыл ки на покупку соответствующей продукции) или, скажем, описания по применению заинтересовавших подходов к проблеме, — и все это не потому, что авторы единственного сайта сочли нужным проставить соответствующие ссылки, а потому, что мы оперируем в рамках сети данных (формально описанных в терминах общих языков и словарей) вместо нынешней сети страниц.

Чтобы все это работало, понадобятся еще некоторые компоненты, кроме собственно языка описания данных. Нужны общие термины-предикаты допустимые разделы и "поля" для "анкет" разных типов. Например, если в RDF-документе записано, что он использует схему данных[Описанную, к примеру, в формате RDF Schema. Форматов существует несколько, но главное не формат, а декларация намерений: схема может быть вообще никак не описана, а только определяться уникальным идентификатором. Например, схема дополнительных полей для описания блога от Яндекса не имеет публичного описания, но любой документ, в котором есть URL-идентификатор этой схемы — "http://blogs.yandex.ru/schema/foaf/", — декларирует, какое значение он придает предикатам вроде "blogActivity" или "bio".], обозначаемую таким-то уникальным идентификатором (как правило, таким идентификатором служит адрес в Вебе, где выложена сама схема или документация по ней), это сразу говорит интеллектуальному агенту, какие поля он может встретить (и позволяет агенту определить, знает ли он способ обработки таких типов документов).

Следующий компонент, позволяющий интеллектуальному агенту уверенно чувствовать себя в сети данных, — это онтологии (классификации и описания свойств) общих понятий и отношений между ними.

Ссылки на онтологии позволяют интеллектуальным агентам понимать, что если рассматриваемые данные описывают "страну", то у нее может быть ссылка на ровно одно данное типа "столица", несколько ссылок на "граничащие страны" и т. п. Другой пример (возвращаясь к нашей клубнике): если разные ресурсы используют в качестве названий… хм… жанров не просто текстовые строки, а ссылки на термины одной общей онтологии порножанров, лежащей где-то в Сети, то программный интеллектуальный агент сможет на всех этих ресурсах выполнять едино образные запросы с гарантированным результатом, независимо от того, какими словесами обозначены жанры в пользовательском интерфейсе. Самый известный и "официальный" (в смысле наличия W3C-стандарта), хотя и не единственный язык описания онтологий называется OWL (Web Ontology Language)[Один из создателей языка о несоответствии названия аббревиатуре: "Ну, может же язык, созданный ради логичности и последовательности, быть хоть в чем-то непоследовательным?"]. В более ранних описаниях Семантического Веба OWL фигурирует как "единственно верный" язык описания онтологий, но реальность часто корректирует стандарты, делая их более вариативными, — сегодняшний FAQ на сайте W3C указывает лишь, что "необходим язык описания онтологий, например OWL". Другие более-менее распространенные языки — SKOS, созданный европейским семантическим сообществом, и DAML+OIL, выращенный в недрах DARPA.

Наконец, очевидно, что нужны и стандартные средства обработки RDF-данных — описания запросоввыборок [Эту роль берет на себя язык SPARQL (во многом подобный языку SQL, используемому для запросов к обычным реляционным базам данных).] и систем логических выводов[Существует предложенный, но пока не принятый стандарт Rule Interchange Format (RIF).].

Итак, сводим воедино прекрасную картину Семантического Веба: все ресурсы Сети выглядят как "анкеты" на языке RDF, излагающие смысл, а не внешний вид; во всех имеются ссылки на схемы-описания полей этих анкет и словари общих терминов. Пользователь же вооружен не пассивным "браузером"просмотрщиком [Кстати, для установки аналогий в головах читателей — на официальном языке стандартов W3C браузер тоже называется "пользовательским агентом"], а активным интеллектуальным агентом, работающим на уровне данных (независимо от их источника), а не страниц. То есть: из онтологии популярных фотосайтов вытащил порносайты, отобрал с них изображения по восьмидесяти критериям вкуса пользователя и вывел аккуратным списочком, доступным для дальнейшей сортировки, фильтрации и вду-у-у-умчивого просмотра.

Вот почему сэр Тимоти считает, что "Гуглу капец": буде все "интересненькое" в мире опишется формальными RDF-описаниями, методы взаимодействия с Вебом станут (могут стать) принципиально другими. Изменятся (могут измениться) даже самые что ни на есть базовые вещи: единица "браузинга" по Семантическому Вебу уже не имеет ничего общего со "страницей" (единственным документом в каком бы то ни было формате, определяемым своим адресом-URL) — она может быть как маленькой частичкой огромного "документа", так и, наоборот, огромным описанием, составленным из фрагментов десятков документов-описаний со всей Сети. По сути (в экстремуме, в идеальной сети данных), загнуться или сильно изменить бизнес-модель придется не только поисковикам, но и блоговым платформам, онлайн-магазинам, фотохостингам… Останутся лишь "голые" производители, потребители и хостеры "голых" же данных и шустрые интеллектуальные агенты между ними.

Однако основным идеям Семантического Веба уже немало лет, а не то чтобы "экстремума", но даже стремительного роста не видать (сравните хотя бы с куда более молодым термином-вирусом "Web 2.0", знакомым любой домохозяйке). В чем же дело?

Где деньги, Зин?

Вот вопрос: а где же, собственно, во всем этом благолепии деньги (которые, как известно, правят миром), — то есть что может завлечь сильных мира сего в Сети Семантики? Ответы есть и у W3C, и лично у сэра Тимоти, но, в общем-то, не слишком убедительные: дескать, информационные потоки любой корпорации могут быть организованы существенно эффективнее (читай — выгоднее), если будут основываться на семантически описанных данных. Но вопрос-то не в том, что Семантический Веб намного проще, а в том, где деньги для поставщиков контента? С какой стати мой непосильнымтрудом-нажитый контент должен участвовать в сети-без-сайтов, где потребитель информации не"зайдет ко мне" (и посмотрит Рек ламу!), а получит от меня лишь нужный ему кусочек данных посредством своего интеллектуального агента?

Существует интересный прагматический ответ на этот непростой вопрос, известный под названием MashupAds. Идея в том, что пользовательским "интеллектуальным агентом", интерфейсом к миру семантических данных, должен являться обычный сайт, аггрегирующий информацию с семантических сервисов и предоставляющий пользователю дружественный интерфейс для навигации по этой информации и выполнения сложнейших запросов. Именно этот сайт (точнее — множество сайтов, для каждой отрасли — свой интеллектуальный агент) и будет показывать пользователю рекламу — да не свою, а полученную из "семантической базы рекламы" и семантически же привязанную к текущему контенту. При этом деньги из кармана рекламодателя (минус процент "интеллектуального агента") будут переходить в карман поставщиков того контента, к которому семантически привязалась реклама. Не правда ли, похоже на модель Гугла с его AdWords и AdSense?