Электронные издания, Вуль Владимир Абрамович

Электронные издания

на обложку

Вуль Владимир Абрамович

Шрифт:

Рис. 8.9. Интерфейс программы TextAnalyst 2.01 с загруженным текстовым документом и результатами анализа семантической структуры этого документа

Итак, на рис. 8.9 в окне 1 представлена сеть понятий (активна третья слева кнопка в нижней строке этого окна). Если подвести к значку возле выбранного понятия указатель мыши и выполнить двойной щелчок ее левой кнопкой, то раскроется список всех понятий, связанных с выбранным. Для того чтобы просмотреть всю информацию, относящуюся к данному понятию, следует щелкнуть мышью по первому пункту ( <все> ) раскрытого списка. После этого в окне 2 появятся все предложения текстов, включающие это понятие, причем оно само будет выделено красным цветом. В том случае, когда пользователя интересует не вся информация о выбранном понятии, а лишь та, которая касается его связи с одним из понятий в раскрытом ниже списке окна 1 , следует указать мышью на это связанное с исходным понятие. В результате этого действия, в окне 2 появятся все предложения текстов, включающие выбранную описанным способом пару понятий, также выделенную цветом. Если сделать двойной щелчок мышью по интересующему нас предложению в окне 2 , то в окне 3 появится конкретное место исходного текста. Соответствующие места выделены темным в этих двух окнах на рис. 6.9.

Теперь

следует обратить внимание на пары чисел, расположенных вблизи понятий в окне 1 на рис. 8.9. Ближайшее к понятию число (расположенное левее) представляет его смысловой вес. Его значение изменяется от 1 до 100 и показывает, насколько важную роль играет это понятие для смысла всего текста, иначе говоря, ранжирует данное понятие. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. В нашем случае самым важным является понятие базы данных или аббревиатура БД, вследствие чего ему приписан вес 99. Малый смысловой вес, близкий к единице, показывает, что соответствующая тема лишь вскользь упомянута в тексте и количество информации, относящейся к данному понятию, минимально.

Другое число, находящееся ближе к раскрытому узлу (т. е. левее), представляет вес связи понятия, расположенного в узле или вершине раскрытого списка, и данного понятия. Вес связей также принимает значение от 1 до 100. Большое значение веса связи от одного понятия к другому, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в тоже время и второго понятия – первая тема почти всегда излагается в контексте второй. Иначе говоря, два этих понятия тесно коррелированны друг с другом. При малых значениях, близких к единичному, узловое или первое понятие слабо связано со вторым, а уровень их взаимной корреляции близок к нулю. Следует отметить, что связь между парой понятий сети характеризуется направлением (т. е. подобна вектору). Связь от первого понятия ко второму не совпадает по величине с обратной связью, т. е. от второго к первому.

Таким образом, сеть понятий действительно представляет идеальное описание текста – информация в ней отражает все присутствующие смысловые связи, т. е. обеспечивает полноту смыслового портрета анализируемого документа. Однако для большинства из нас более привычны направленные графы информационного представления документов, в которых связи ориентированы в направлении от главного к второстепенному. Этому представлению соответствует так называемая тематическая структура рассматриваемого документа. Тематическая структура описывает содержание анализируемых текстов в виде иерархии связанных тем и подтем. Все темы и подтемы выражены в терминах исходного текста и соответствуют узлам сети понятий. Однако, в данном случае, связи между понятиями односторонние и направлены от главного понятия к подчиненным.

Таким образом, тематической структуре соответствует иерархическое представление – от каждой темы раскрываются связи только к ее собственным подтемам, от них – к подтемам следующего уровня и т. д. Тематическая структура имеет вид дерева, в корне которого стоят главные темы, в ветвях – их подтемы. Общий вид тематической структуры отражает смысловую организацию анализируемого документа. Если вся информация в документе подчинена единой теме, структура будет иметь вид дерева с единственным корнем. Если же его содержание отражает несколько тематических направлений, не связанных друг с другом, то дерево распадается на несколько независимых кустов, корни которых представляют главные темы, не связанные друг с другом.

Рис. 8.10. Интерфейс программы TextAnalyst 2.01 с загруженным текстовым документом и результатами анализа тематической структуры этого документа

Для просмотра тематической структуры следует активизировать в окне 1 закладку "Тематическая структура", нажав вторую кнопку слева в этом окне. На рис. 8.10 тематическая структура представляется в окне 1 в виде дерева понятий – названий тем, некоторые из которых имеют раскрывающиеся списки связей с подтемами. Понятия в корне дерева представляют список главных тем текстов, а связанные с ними элементы в списках последующих уровней – списки подтем. Программа TextAnalyst дает возможность регулировать степень связности тематического дерева. Для этого следует изменять порог по весу связей в сети понятий. Выбирая определенный уровень в качестве порогового значения связей, мы изменяем вид дерева, разбивая его на большее или меньшее количество тематических кустов. В результате появляется возможность взглянуть на структуру текста в различных срезах, на разных уровнях глубины материала. С точки зрения интерфейса, анализ тематической структуры документа аналогичен работе с семантической сетью. Анализ тематической структуры также иллюстрирует тот факт, что в программе осуществляется морфологический анализ слов с группированием однокоренных.

8.4. Автоматизация пополнения информацией специализированных модулей атрибутивной базы данных

Для успешного планирования издательской деятельности необходимо регулярно следить за текущим уровнем развития науки и техники в тех ее областях, которые соответствуют выпускаемым в свет этим издательством книгам. Следовательно, в базе данных должен быть предусмотрен специальный модуль "Последние издания", где представлены новинки других издательств в определенной области или областях. Перед заключением договора с автором или авторами очень важна информация относительно области научно-практических интересов авторов и их достижениях в этой области. Таким образом, в базе данных следует предусмотреть раздел "Персоналии", где сосредоточена информация о публикациях сотрудничающих с издательством авторов, включая библиографические данные, отзывы, аннотации, списки рубрикаций и, иногда, тексты самих этих изданий.

Наконец, для проведения правильной издательской политики необходимо ориентироваться в том, какие книги уже изданы или намечены к изданию другими издательствами в той тематической области, в которой предполагается выпустить в свет книгу в данном издательстве. Кстати, исчерпывающая информация по данному вопросу помогает заблаговременно определить, не предлагают ли авторы свои произведения одновременно нескольким издательствам, не являются ли новые предложения попыткой переизданий с небольшими изменениями ранее изданных работ и так далее. Таким образом, и с этих позиций очевидна необходимость модуля "Последние издания" различных издательств.

Чтобы принятие решений руководством издательства производилось в условиях полного обеспечения нужной информацией, база данных должна систематически пополняться сведениями в тех двух направлениях, которые были указаны выше. Известно, что в настоящее время основным источником для быстрого получения исчерпывающей информации по самым различным вопросам стала Всемирная сеть Интернет. Именно оттуда следует пытаться с наименьшими затратами, включая рабочее время работников издательства, извлечь нужные данные. Заполнение этой части издательской БД может производиться вручную, силами специально выделенных сотрудников издательства, но гораздо лучше разработать механизмы для автоматического поиска и извлечения нужной информации из сети Интернет и последующего занесения этой информации в БД.

В связи с этим встает ряд проблем, касающихся того, как эффективно организовать поиск и извлечение требуемой информации. Это относится и к оптимизации построения запросов на поиск, и к оценке релевантности извлекаемых из сети документов, и к информационной структуре модулей, в которые заносится извлекаемая из сети Интернет информация. Рассмотрению всех изложенных выше

прикладных задач посвящается текущий раздел.

8.4.1. Основы организации современных информационно-поисковых систем

Рассмотрим типовую схему информационно-поисковой системы для сети Интернет, которая представлена на рис. 8.11. Браузер , как уже говорилось ранее, это программа просмотра конкретного информационного ресурса, являющегося объектом поиска информационно-поисковой системы (ИПС). Под интерфейсом пользователя ИПС понимается способ общения пользователя с поисковым аппаратом системы, т. е. с системой формирования запросов и просмотра результатов поиска. Поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке (ИПЯ), в формальный запрос системы, а также поиска ссылок на информационные ресурсы сети и выдачи результатов этого поиска пользователю. Индекс ссылок – это основной массив данных информационно-поисковой системы. Он размещается на поисковом сервере и служит для поиска адреса (URL) информационного ресурса. Архитектура индекса должна строиться таким образом, чтобы можно было бы оценить релевантность каждой из найденных ссылок на информационные ресурсы. Запросы пользователя целесообразно сохранять в его личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы. Робот-индексировщик – это программа автоматического сканирования сети Интернет и поддержки индекса ссылок на поисковом сервере в актуальном состоянии. Наконец, под Web-сайтами подразумеваются просматриваемые информационные ресурсы глобальной сети.

ИПС гораздо старше систем управления базами данных. Они продолжают успешно развиваться в своей нише, оказывая влияние и на ресурсы глобальных сетей. Эти системы имеют строго определенную структуру документа хранения, которая наиболее полно описана в стандарте для разработчиков распределенных ИПС – Z.3950. К слову, этот стандарт по своим потенциальным возможностям столь обширен, что ни одна из существующих систем не реализует его в полной мере. Сам поиск обычно строится на основе преобразования предложений информационно-поискового языка в запросы информационной системы. Язык может основываться на терминах, словоформах или устойчивых словосочетаниях, всю совокупность которых обычно называют словарем системы.

Рис. 8.11. Типовая схема информационно-поисковой системы для глобальной сети

В современных ИПС чаще используется векторная модель поиска и представления документа. В ней можно выделить несколько основных понятий: словарь, документ, поток и процедуры поиска и коррекции запросов. Под словарем понимают упорядоченное множество терминов, мощность которого обозначают как D. Документ – это двоичный вектор размерности D. Если термин входит в документ, то в соответствующем разряде этого двоичного вектора присутствует 1, в противном же случае – 0. Информационный поток или массив L представляют в виде матрицы размерности N × D, где в качестве строк выступают поисковые образы N документов. При таком рассмотрении можно сформулировать процедуру обращения к информационной системе следующим образом:

L × q = r, (8.3)

где q – вектор запроса; r – отклик системы на запрос. Это традиционное определение процедуры поиска документов в ИПС, которое введено Солтоном [35] в 1977 году. Оно исходно предназначалось для автоматического индексирования документов, но оказалось чрезвычайно полезным и для процедуры поиска. Для описания работы распределенных ИПС обычно применяются информационно-поисковые языки типа "Like This". Данный подход пригоден также для вычисления меры близости "документ – запрос". Чаще всего используют улучшенную меру близости Солтона (серверы WebCrawler и Lycos).

Начало применению запросов типа "Like This" положила система WAIS, о которой уже упоминалось в разд. 3.2. Именно при ее создании впервые было заявлено о переносе центра тяжести на языки информационного поиска, основанные на вычислении меры близости "документ – запрос". Основная причина такого подхода – желание дать возможность пользователям использовать обычный естественный язык при составлении запросов. Система WAIS проводила нормализацию лексики и удаляла из списка терминов запроса общие и стоп-слова. Затем вычислялась мера близости и в соответствии с полученными значениями ранжировался информационный массив. Практически все ИПС сети Интернет устроены по этому принципу.

Другим важным способом улучшения качества поиска в информационнопоисковых системах для глобальной сети стала процедура коррекции запроса по релевантности найденных документов. Пионером здесь также выступила поисковая система WAIS. Пользователю предоставлялась возможность отметить документы, которые являлись релевантными его запросу. После этого запрос пополнялся терминами релевантных документов и вычислялось новое значение выражения (8.3) для поискового образа. В литературе по информационному поиску часто можно встретить термин "профиль", который относят к запросам пользователей. Но информационный профиль или тематический профиль имеется и у информационной системы. Наиболее просто тематический профиль системы материализуется в виде классификации, которая применяется в данной системе или рубрикаторе. В информационных системах Интернета профиль играет еще и роль навигационного средства, позволяющего получить доступ непосредственно к набору документов, попадающих в тот или иной раздел классификации. Естественно, что в моделях, предназначенных для описания работы ИПС, также должно быть введено понятие профиля и выявлена его актуальность для информационного поиска. В матричной форме операцию расширения запроса можно определить в виде:

LT × rk–1 = qk , (8.4)

где LT – это транспонированная матрица L, а rk–1 – отклик системы на предыдущий запрос или результат предшествующей итерации. Выражение (8.4) требует уточнения. В это выражение следует ввести еще одну матрицу – F, призванную учитывать фактор пользователя.

LT × Fk–1 × rk–1 = qk (8.5)

Матрице Fk–1 соответствует система фильтров пользователя, при помощи которых он корректирует свой запрос. Эти фильтры имеют в реальных системах конкретную интерпретацию. В поисковых системах WAIS и Lycos пользователь просто помечает релевантные документы. В этом случае фильтры превращаются в диагональные матрицы, которые в релевантных документах имеют главную диагональ с единицами, а в нерелевантных – с нулями. Но, в общем случае, на диагонали можно размещать и вес или уровень релевантности. В других случаях возможно ранжирование документов с учетом их гипертекстовых связей с другими документами, как релевантными, так и нерелевантными. Процесс коррекции запроса не бывает бесконечным. Обычно он завершается, когда пользователь устает просматривать найденные документы и приходит к выводу, что нашел искомое или получил приемлемый результат. В принципе, даже при прямом просмотре, второй результат является концом процедуры поиска информации. Это означает, что, начиная с некоторого значения, вектор отклика остается неизменным:

(L × LT × F) × rk–1 = rk. (8.6)

Из (8.6) следует, что процесс коррекции запросов по релевантности должен сходиться к собственному вектору матрицы (L × LT × F). Это позволяет информационной системе за 1 или 2 итерации найти оптимальную форму запроса, что достаточно важно для автоматизированных систем, так как позволяет снизить время поиска и соответственно уменьшить нагрузку на сеть.

8.4.2. Законы Зипфа и подготовка тезауруса

Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т. е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.