Журнал «Компьютерра» №30 от 23 августа 2005 года, Журнал Компьютерра

Журнал «Компьютерра» №30 от 23 августа 2005 года

на обложку

Журнал Компьютерра

Шрифт:

Иерархические модели данных хорошо известны и изучены. Самый известный пример – реестр ОС MS Windows. Использование иерархической модели позволяет строить более сложные индексы, нежели в реляционных БД. Исторически эти модели были первой структурой БД и получили широкое распространение в эпоху мэйнфреймов. Для подобных баз были созданы мощные языки запросов, а по быстродействию они до сих пор вне конкуренции. Реляционные БД со временем оттеснили иерархические, но не факт, что не произойдет частичный реверс.

В принципе, запаковать иерархические данные в реляционную базу нетрудно. Для этого рядом с основной таблицей строится триггером таблица транзитивного замыкания, содержащая все пары предок-потомок, где из предка существует путь в

потомки. Несколько ресурсоемко и по быстродействию не то, но работает.

Как же осуществляется интеллектуальный поиск в такой базе данных? Предположим, что нас интересует информация о девушке, играющей по утрам на арфе. Такой запрос можно составить и на естественном языке, и тот же анализ компонент выделит в нем компоненту со значением времени (по утрам) и орудийную компоненту (на арфе). При поиске фрагменты текста, где, например, «девушка по утрам слушала игру на арфе», будут игнорироваться, так как там к игре на арфе относится не орудийная компонента, а компонента сенсорного восприятия. Вот такая избирательность и логичность.

Понятно, что для интеллектуального поиска конструирование модели запроса представляет собой серьезную задачу. Но при указанном подходе вполне реально получать ответы на любые запросы по смыслу документа.

Вот и весь краткий сказ о поиске. Разумеется, из-за недостатка места и времени многое опущено. Но ясно, что существующие сегодня поисковые сервисы позволяют найти все. А завтра, будем надеяться, появятся и те, что из всего найденного выдадут действительно необходимое.

Крупнейшие поисковые сервисы – Google, Yahoo! и MSN – к попыткам научить поисковые движки понимать запросы пользователей и документы видимого интереса не испытывают (вполне возможно, что причины их равнодушия к этим разработкам схожи с соображениями Александра Садовского, изложенными в предыдущей врезке). Интернет-пользователи привыкли к особенностям поисковых машин, знают их сильные и слабые стороны и по большей части удовлетворены имеющимися возможностями. Если в ближайшие несколько лет в поисковых технологиях и появятся революционные качественные изменения, то инициатором их появления станут, скорее всего, не известные лидеры рынка, а компании, которые обыватель с поиском вообще не связывает. В частности, очень активно сейчас развиваются корпоративные поисковые сервисы, которым зачастую ставится задача не только найти похожий по смыслу документ, но и проанализировать его, найти документы с ним связанные, и т. д. И здесь привычным поиском по ключевым словам не обойдешься.

Над технологией, способной обойти привычные ограничения, уже несколько лет работает исследовательский центр IBM. В августе этого года корпорация даже пообещала выложить в Сеть для свободной загрузки исходные коды своей платформы UIMA (Unstructured Information Management Architecture, www.alphaworks.ibm.com/tech/uima).

Информационные агентства поспешили заявить о том, что на смену поиску по ключевым словам приходит поиск по понятиям (key facts вместо key words), однако UIMA поиск по ключевым словам вовсе не отменяет (скорее, дополняет);

является не готовым приложением, а основой для построения специализированных программ анализа данных;

сейчас – после четырех лет разработки – все еще находится в начальной стадии развития, хотя пилотные проекты на базе UIMA существуют.

Подробнее об UIMA, которая оказалась в центре внимания прессы только пару недель назад, можно прочитать в прошлогоднем номере IBM Systems Journal (www.research.ibm.com/journal/sj43-3.html). Там же описаны несколько возможных приложений UIMA (например, www.research.ibm.com/journal/sj/433/mack.html и www.research.ibm.com/journal/sj/433/uramoto.html).

В общем случае UIMA дает инструменты для анализа и структурирования информации (в ходе чего можно обнаружить неочевидные связи между данными). Однако для поиска в Интернете эта технология пока неприменима и в обозримом будущем может стать популярным, но специализированным решением для предприятий.

У IBM в этом свой интерес – если действительно удастся сделать UIMA стандартом, то вложения в эту технологию окупятся стократ. А там, глядишь, потенциал, заложенный в UIMA, будет раскрыт сторонними разработчиками, да так, что поисковый сервис, скажем, 2015 года на скромный пользовательский запрос о бесплатных mp3 вместо нужных ссылок будет выдавать составленный машиной оригинальный двадцатистраничный реферат о проблемах пиратства в Сети. – В.Г.

xMax Громкие заявления о тихих сигналах

С июля этого года по сетевым, а затем и бумажным масс-медиа начало распространятся сообщение о разработке флоридской компанией xG Technologу уникального метода цифровой связи. За неделю-другую новость дошла до русскоязычных ресурсов, включая нашу Computerra.ru. Как это часто бывает, новостные сообщения интернет-сайтов клонируют друг друга, по сути (а иногда и буквально) пересказывая самый первый текст одного из крупных новостных агентств. В случае с xMax это, видимо, было сообщение Сlickpress.com от 23 июня, которое, в свою очередь, пересказало пресс-релиз самой xG Technologу. Мы, конечно, не будем повторять эти сочинения, но процитируем главные заявления, чтобы стало понятно, о чем речь.

xMax – последняя инновация в широкополосных коммуникациях, эта технология радиосвязи способна передавать данные на расстояниях больше стандарта WiMAX, излучая в эфир столь слабые сигналы, что для них не нужно разрешение на использование частоты… В отличие от существующих Wi-Fi и WiMAX, рассчитанных на гигагерцовые диапазоны, новая технология обеспечивает высокую скорость на частотах ниже 1 ГГц. …Метровые и дециметровые волны распространяются гораздо дальше сантиметровых, хорошо проникая сквозь препятствия… Мы (это уже говорит Джозеф Бобье, изобретатель и технический директор xG Technologу. – Прим. ред.) имеем в виду увеличение расстояния в пять-шесть раз… Сигналы xMax так слабы, что не будут мешать обычным теле– и радиопередачам, частоты которых они станут использовать… Первая ячейка радиосети xMax построена в Майами и покрывает сорок квадратных миль…

Впечатляет? А еще Бобье заявлял «о фундаментальной смене парадигмы в области излучения радиоволн, их модуляции и демодуляции».

Если вы захотите узнать подробности и разобраться, как же такое возможно, то, наверное, отправитесь на сайт xGTechnologу.com. И вот он-то заставит вас крепко задуматься. Более того, изучение информации о xMax на других сайтах вашу задумчивость только усилит. Но обо всем по порядку.

Итак, во-первых: сеть в пригороде Майами лишь планируется запустить ближайшей осенью, а вовсе она не построена, как сообщили, например, citforum.ru и 3gnews.ru, между делом «разогнавшие» размер сети до 103 кв. км. Впрочем, другие масс-медиа часто писали «размером 40 миль», опуская слово «квадратных».

Во-вторых, на официальном сайте говорится всего лишь об экспериментальных сеансах связи «на расстоянии более одной мили». При этом использовался УКВ-диапазон и наземные антенны, а сигнал вроде бы пробил бетонные стены зданий, хотя сказано это довольно неуверенно. Еще говорится, что при излучаемой мощности 0,0005 Вт испытания показали больший уровень магнитуды сигнала, чем у Wi-Fi и других широкополосных технологий. Имел ли именно такую мощность сигнал, пробивший здания на протяжении мили, – непонятно. Текст написан таким образом, что его можно понять как угодно. О скоростях, достигнутых в экспериментах, нет ни слова, но если покопаться в разделах сайта, можно найти страницу, где сообщается о 6,24 Мбит\с на частоте 100 МГц, при этом сигнал не мешал работающей на той же частоте FM-станции. Были ли это разные испытания – одно на дальность, другие на мощность и скорость, или речь идет об одном, можно только догадываться. И это далеко не все недомолвки сайта xGTechnologу.com. Процитируем (не дословно, а по сути) официальный FAQ: