Электронные издания
Шрифт:
Поэтому для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т. е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится в следующей последовательности.
1. Удаление из текста стоп-слов.
2. Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.
3. Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.
4. Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором
Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания уровня релевантности найденного документа), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник вполне может оказаться не на первой странице результатов поиска.
Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике). Все большее число поисковых серверов позволяют использовать такую методику. Таким образом, вместо единой иерархической структуры терминов получается пакет таблиц, которые могут расширяться и модифицироваться независимо друг от друга.
8.4.3. Профайл пользователя и автоматическое занесение информации в специальные модули БД
Проблема классификации предметной области достаточно сложна. Для решения этой проблемы необходимо собрать большой статистический материал о ключевых понятиях и взаимосвязях между ними в рамках всей отрасли [39]. Однако к этой проблеме можно подойти с другой стороны – предложить использование такого метода классификации, на котором может реально основываться стратегия поиска. Одним из таких методов является построение так называемого профайла пользователя. Под построением профайла пользователя в этой книге будет пониматься объединение устойчивых информационных потребностей людей, работающих в определенной предметной области в виде дерева множеств ключевых слов. Каждое множество, при этом, отражает определенную группу интересов. В качестве простого примера на рис. 8.12 представлен профайл, который определяет совокупность ключевых слов и понятий, интересующих специалиста по обработке изображений.
В современных информационных технологиях определенную популярность приобрело использование специализированных средств по адаптации программных продуктов к потребностям конечного пользователя. Такой подход позволяет максимально облегчить работу "узких" специалистов, не стремящихся вдаваться в тонкости настройки данного продукта, а лишь желающих использовать этот продукт как инструментальное средство для решения своей конкретной задачи. Можно сказать, что у каждого отдельного пользователя существуют свои информационные потребности – определенная доля знаний о данном продукте, необходимая ему для полноценной работы с таким программным продуктом. Эта доля знаний условно названа "профайлом пользователя" (user\'s profile).
В нашем конкретном случае существует возможность еще более облегчить работу пользователя, частично автоматизировав процесс построения профайла. Автоматизация будет состоять как в автоматическом уточнении веса ключевых слов, включенных в него пользователем, так и в автоматическом пополнении списка этих слов из результатов поиска. Такая методика будет способствовать уменьшению количества найденных в результате запроса документов за счет повышения уровня их релевантности. Небольшое увеличение участия пользователя в оценке получаемых результатов вполне оправдано, так как именно здесь машине очень трудно заменить человека, в особенности с высоким уровнем квалификации.
Алгоритм действий при автоматическом создании информационного файла следующий:
1. Сбор информации о вводимых запросах на поисковых серверах и запись ее в лог-файл.
2. Автоматический анализ документов, найденных в ходе запросов на различных поисковых серверах, с помощью программ, рассмотренных в разд. 8.3. Выявление ключевых слов и понятий и их ранжирование. Запись полученной информации в файл.
3. Экспериментальная проверка релевантности полученного результата.
Самый простой способ сбора вводимой информации – использование так называемых "клавиатурных шпионов". Подобные программы отслеживают и записывают в лог-файл (т. е. файл с расширением log) всю вводимую с клавиатуры информацию. Таких программ достаточно много. В качестве примера использовалась программа HookDump 2.8 (разработчик И. В. Осипов). HookDump позволяет определить, какие программы загружали, что в них набирали, какие кнопки мыши нажимали. Лог-файл создается автоматически в указанном каталоге.
При анализе документов определяется способ выборки ключевых фраз из документа для построения информационного файла, а также способ выделения корня, иначе – стемминг слов (stem – грамматическая основа, корень). Стемминг используется для отбрасывания от слова суффиксов и окончаний. Двумя наиболее популярными алгоритмами стемминга являются алгоритмы Портера (Porter) и Ловинса (Lovins). Оба алгоритма используют эвристические методы удаления или трансформации английских суффиксов. Другим подходом может служить составление словаря, где каждому используемому слову соответствует определенный корень (stem) [35].
Алгоритм Ловинса более агрессивен, т. е. он активнее стремится к тому, чтобы привести слова к одному корню, но и допускает больше ошибок. Тем не менее применительно к выборке ключевых слов агрессивный стемминг подходит лучше, чем традиционный. Для повышения агрессивности стемминга часто применяется метод нескольких последовательных итераций.
В целом, проблему выборки из текста ключевых слов и выражений можно рассматривать как классификацию. Если представлять документ как порядок слов и фраз, то задача в отношении каждого слова и фразы заключается либо в отнесении его к категории ключевых выражений либо нет. Оценка результатов автоматической классификации связана с тем, насколько машинный результат совпадает с результатом, полученным в результате анализа текста человеком или группой специалистов в рассматриваемой прикладной области.Контрольные вопросы
1. Что такое метаинформация и какие отношения между публикациями и метаинформацией?
2. Какие атрибуты включаются в понятие метаинформация? Что кроме атрибутов входит в это понятие?
3. Какой тэг используется для размещения метаинформации в HTML-документах? В какой части документа размещается этот тэг? Какие два параметра характерны для этого тэга и как задаются атрибуты с помощью этих параметров в составе документа?
4. Позволяет ли метаинформация осуществлять детерминированный поиск? Если позволяет, то как это делается?
5. Какой из поисковых серверов уже использует метаинформацию при поиске документов? Как это реализуется практически?
6. Как организовать начальный поиск документов по заданной тематике? Как в ключевых словах определить эту тематику? Как организованы поисковые индексы (ссылочная база данных) на серверах? Чем отличается ручная каталогизация и организация поискового индекса с помощью программ-роботов? На каких серверах лучше организовать поиск на начальной стадии работы?
7. Что гласит первый закон Зипфа и как его использовать на практике? Какие значения ранга соответствуют наиболее значимым словам и выражениям?
8. В чем состоит содержание второго закона Зипфа и какое его практическое значение? Как установить диапазон значимых слов и на что влияет выбор этого диапазона?
9. В чем состоит смысл третьего закона Зипфа и какова его формулировка? Зачем нужна "инверсная частота термина" и на что она влияет?
10.Что такое программы-экстракторы и для чего они нужны? Какие специализированные программы этой группы вам известны? Может ли в этих целях использоваться одна из распространенных программ, а если может, то как?
11.В чем состоит простой семантический анализ текста? Можно ли автоматизировать процесс определения частоты повторения слов и выражений? 12.Какие средства редактора MS Word можно использовать для анализа текста? Как и в какой последовательности это сделать практически?
13. Какие программы-экстракторы производства зарубежных фирм вы знаете? А программы-экстракторы, произведенные отечественными фирмами и предприятиями?
14.Какие функции может выполнять, по мнению разработчиков, программа для семантического анализа текстов TextAnalyst? Как вы думаете, можно ли создать нечто подобное для работы с компьютерной графикой?