Журнал Компьютерра N741-742, Журнал Компьютерра

Журнал "Компьютерра" N741-742

на обложку

Журнал Компьютерра

Шрифт:

Однако основным идеям Семантического Веба уже немало лет, а не то чтобы "экстремума", но даже стремительного роста не видать (сравните хотя бы с куда более молодым термином-вирусом "Web 2.0", знакомым любой домохозяйке). В чем же дело?

Где деньги, Зин?

Вот вопрос: а где же, собственно, во всем этом благолепии деньги (которые, как известно, правят миром), — то есть что может завлечь сильных мира сего в Сети Семантики? Ответы есть и у W3C, и лично у сэра Тимоти, но, в общем-то, не слишком убедительные: дескать, информационные потоки любой корпорации могут быть организованы существенно эффективнее (читай — выгоднее), если будут основываться на семантически описанных данных. Но вопрос-то не в том,

что Семантический Веб намного проще, а в том, где деньги для поставщиков контента? С какой стати мой непосильнымтрудом-нажитый контент должен участвовать в сети-без-сайтов, где потребитель информации не"зайдет ко мне" (и посмотрит Рек ламу!), а получит от меня лишь нужный ему кусочек данных посредством своего интеллектуального агента?

Существует интересный прагматический ответ на этот непростой вопрос, известный под названием MashupAds. Идея в том, что пользовательским "интеллектуальным агентом", интерфейсом к миру семантических данных, должен являться обычный сайт, аггрегирующий информацию с семантических сервисов и предоставляющий пользователю дружественный интерфейс для навигации по этой информации и выполнения сложнейших запросов. Именно этот сайт (точнее — множество сайтов, для каждой отрасли — свой интеллектуальный агент) и будет показывать пользователю рекламу — да не свою, а полученную из "семантической базы рекламы" и семантически же привязанную к текущему контенту. При этом деньги из кармана рекламодателя (минус процент "интеллектуального агента") будут переходить в карман поставщиков того контента, к которому семантически привязалась реклама. Не правда ли, похоже на модель Гугла с его AdWords и AdSense?

В таком разрезе Семантическая Паутина простому пользователю представляется немногочисленным набором сайтов-аггрегаторов специализированных поисковиков, выполняющих посредническую роль не только между пользователем и информацией, но и между поставщиком контента и рекламодателем. Условный пример: на сайте-"интеллектуальном агенте" географической направленности пользователь может максимально быстрым и удобным путем найти любую информацию об интересующей его местности — от туристической до краеведческой; и при этом он увидит максимально релевантную своим поискам рекламу: человеку, просматривающему информацию об отелях, будет предложено несколько соблазнительных туров, а взыскующему исторических сведений скорее выпадет реклама книжных магазинов и обучающих фильмов. При этом, напомним, сам сайтсервис является просто универсальным интерфейсом к туче баз данных (находящихся на других серверах, принадлежащих другим хозяевам).

Выводы о преимуществах и недостатках описанного подхода, а равно и перспективах его внедрения, оставим читателю в качестве домашнего задания.

(Редактор попытался начать выполнять "домашнее задание" и сразу столкнулся с вопросом: с чего бы агенту что-то отстегивать поставщику контента, если только мы не планируем вступать на шаткую землю "технологий защиты от копирования"?)

Подача в прыжке

Если попытаться дать простой ответ на прямой вопрос — побеждают ли идеи Семантического Веба? — то мы окажемся перед серьезным затруднением.

С одной стороны, разработанные инструменты — RDF как универсальный способ машиночитаемого описания данных, OWL как способ построения онтологий, SPARQL как способ запроса к этим данным и онтологиям — вполне себе заняли место в научных и смежных областях и стали стандартом де-факто. С другой стороны, в "мэйнстрим" эти технологии не спешат — а когда и прорываются, редко обходится без конфуза. Например, всем известный RSS — формат для описания обновлений сайтов и блогов, вполне себе семантическая штука, — изначально расшифровывался именно как RDF SiteSummary; завоевание им всеобщего признания казалось началом триумфального шествия Semantic Web по планете. Однако в результате некоторых противоречий и недопониманий на данный момент существует несколько разных RSS’ов (0.90, 0.91, 1.0,2.0), которые, даром что отличаются только номерами версий, имеют совершенно разную внутреннюю структуру и даже разную расшифровку аббревиатуры. Из этих форматов только 0.90 и 1.0 по-прежнему основаны на RDF. А RSS 0.91 (Rich Site Summary) и RSS 2.0 (Really Simple Syndication) — более простые форматы, не связанные с ключевыми технологиями Semantic Web. (Вдобавок существует еще и альтернативный и популярный формат Atom, тоже не имеющий с RDF ничего общего.)

Вообще говоря, превалирующим "сторонним

взглядом" на перспективы идей Семантического Веба долгое время был абсолютный пессимизм и неприятие[Еще полтора года назад автор писал колонки на тему "почему Семан- тического Веба нет, не было, и не надо" — см.]. Причины, в общем, можно легко предпо ложить: среди всего разнообразия сайтов, созданных разнообразнейшими методами, руками авторов с разнообразнейшей квалификацией, трудно ожидать вспышки интереса к "правильной", осмысленной выдаче данных — тем более что выгоды каждого конкретного сайта/сервиса от собственной семантичности малоочевидны, а квалификации создателей не всегда хватает на семантически правильное использование элементов простого HTML, вроде заголовков и списков. Да и сама идея полной (или, по крайней мере, существенной) замены современного Веба Новым Вебом казалась утопией — при полном отсутствии так называемого killer app, привлекательного и общеполезного приложения (не гипотетического, а работающего "здесь и сейчас"), которое делало бы преимущества Нового Веба очевидными любому.

Но в новейшее время в семантичности Веба определенно происходят положительные сдвиги — хотя "семантические" технологии W3C играют в этих сдвигах далеко не первую роль. Killer app’ом, чья популярность только зарождается, оказались, вопервых, поиск, а во-вторых — переносимость данных.

Средством и основной технологией — микроформаты и простые API популярных сервисов. Средством структурирования — (контролируемые) фолксономии.

Результатом — не новая "сеть данных", но и не старая "сеть страниц", а гибридная "сеть страниц с (мета) данными".

Итак, семантическая информация в сегодняшнем Вебе-не-только-для-ученых преимущественно записывается в виде микроформатов — стандартов, позволяющих к существующей HTML-странице добавить информацию о смысле данных. Например, ‹a href=''http://vasya.com''› — это "какая-то ссылка"; а ‹a href=''http://vasya.com'' rel=''colleague''› [Помните "малоиспользуемый и забытый атрибут rel" из первого раздела? ] это та же ссылка, но семантически описывающая мои отношения с блогом-по-ссылке в формате XFN (XHTML Friends Network — натурально, формат задания информации о френдах), — при этом, с точки зрения простого браузера, страница выглядит все так же, но "понимающие" XFN боты[Или браузеры со специальным плагином, например Operator для Firefox.]"увидят" дополнительную информацию и смогут ее использовать. Существуют микроформаты для описания, например, контактной информации (hCard), календарной (hCalendar), информации о "Creative Commons"-лицензировании данного контента и множество других.

Смежный способ "придания дополнительной информации" обычной странице — задание "альтернативных представлений этой страницы" в ее заголовке.

Именно так в блогах указывают их RSS-потоки (тоже ведь — ссылка на "семантическое изложение" того же, что мы видим в HTML); именно так на страницах профилей в разно образных социальных сетях (в том же ЖЖ, например) указывают ссылки на FOAF документы[ FOAF (Friend of a Friend) — схема RDFдокументов, указывающих, опять же, информацию о френдах и ссылки на них. То есть FOAF и XFN — это конкурирующие технологии.].

Хорошо, допустим, кто-то решил описать таким образом часть контента на странице. Возникает закономерный вопрос (точнее — даже два): какая обычному инфопутешественнику [Это автор так предпочитает называть веб-серферов. И красивше, и семантичнее] польза и радость с этой семантики? и даже если она есть, много ли страниц, в которых заложена такая информация?

Действительно, даже Firefox+Operator, честно показывающий "в этой странице заложена контактная информация, хотите ее экспортировать?" или "здесь используются такие-то теги", кажется скорее "вспомогательной фенькой для гика", нежели "признаком качественно другого веба"[Впрочем, есть мнение, что скрытый потенциал семантических микроформатов еще раскроет себя в интеграции виртуальной и физической реальности на мобильных устройствах. Самыми простыми и очевидными примерами представляются мобильник, умеющий одним кликом позвонить по записанному на веб-странице телефону, или КПК, по геоинформации описания достопримечательности в путеводителе немедленно запускающий навигатор.]. Но — вспомним, что было сказано выше о killer app’ах Настоящего Семантического Веба["Настоящего" — не в смысле "истинного", а в смысле существующего здесь и сейчас (в отличие от утопического Полностью Семантического Веба).]: поиск и перенос данных.