Электронные издания
Шрифт:
15.Какова последовательность работы с текстом этой программы? Что такое "сеть понятий" и как она формируется?
16.Какая численная характеристика используется для описания элементов сети? Как оценивается связь между парами понятий? Где можно прочесть ее численное значение?
17.Что такое "тематическая структура" исследуемого в программе TextAnalyst документа? Как просмотреть эту структуру?
18.Какие специализированные модули следует пополнять в издательской базе данных для обеспечения правильной информационной политики данного издательства? Каково должно быть содержание
19.Как построить информационно-поисковую систему на основе браузера? Какие основные части в нее следует включить? Можете ли вы изобразить схему информационного взаимодействия между этими частями системы?
20.Какие модели поиска возможны в информационно-поисковых системах? Какие из них чаще используются и почему?
21.Как осуществляется коррекция запроса в зависимости от множества документов, полученных в результате его выполнения?
22.Какую роль играет "информационный профиль" системы? Какие средства для его представления используются?
23.Что такое тезаурус? Какова роль синонимов, омонимов и морфологических вариаций слов при его составлении?
24.Какова процедура при составлении тезауруса на практике? Какие основные моменты в процессе обработки текста? Как выбирается исходный текст или тексты?
25.Что такое семантический срез и как выглядит структура тезауруса, построенного на основе таких срезов?
26.Что такое, в вашем представлении, профайл пользователя? Как можно сформулировать его определение?
27.Как можно автоматизировать процесс создания профайла пользователя? Какое в этом случае, будет участие самого пользователя?
28.Что такое "стемминг" слов и для чего он нужен? Какие алгоритмы используются для реализации "стемминга"?
Самостоятельная (лабораторная) работа
Работа № 8.1. Семантический анализ заданного документа и организация поиска документов, близких по тематике
Порядок выполнения работы
1. Скопируйте в одну из папок (например, c:\el-pubs\lab-81) на жестком магнитном диске вашего ПК папку К главе 8 – документы для анализа, размещенную на гибком магнитном диске, прилагаемом к пособию. В папке находятся 16 различных файлов в формате DOC.
2. Загрузите имеющийся на вашем компьютере редактор Word (любой из версий от Word 97 до Word 2002) и откройте в нем один из документов, например 5.doc. Анализ этого заданного документа, а затем поиск и ранжирование найденных документов на соответствие их тематики тематике исходного документа составит предмет этой работы.
3. Вызовите диалоговое окно Автореферат (см. разд. 8.3.1), установите размер реферата 25% и задействуйте опцию Обновить сведения о документе . Затем командой Файл | Свойства активизируйте диалоговое окно Свойства , выбрав в нем вкладку Документ . Выпишите ключевые слова из соответствующей строки.
4. Попробуйте разделить исходный документ на несколько (2—4) части, оставив за каждой частью прежнее наименование. Далее проанализируйте каждый из вновь полученных документов (частей исходного) таким образом, как это указано в п.3. Выпишите ключевые слова для каждого из них.
5. Если у вас на компьютере установлена программа TextAnalist, то проанализируйте исходный документ с помощью этой программы и выделите 10 наиболее важных ключевых слов и выражений. Выпишите эти слова.
6. Если у вас установлена программа MTAS (см. разд. 8.3), то с помощью этой программы постройте график частот отдельных слов и выражений, встречающихся в исходном документе. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.
7. Если программы MTAS у вас нет, попробуйте вручную построить такой же график, подобный рассмотренному в п. 6. При построении графика однокоренные слова учитывайте как повторяющиеся значения слова. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.
8. Сравните составленные списки. Обязательно выберите повторяющиеся в различных списках слова и выражения в итоговый список ключевых слов. При отборе обязательно учитывайте тематику исходного документа. Ключевые слова должны соответствовать этой тематике.
9. Из выбранных ключевых слов составьте поисковое выражение и используйте это выражение для поиска близких по тематике документов на 3 основных отечественных поисковых серверах: Rambler, Aport и Yandex. Выпишите название и местоположение первых 20 или 30 из числа документов, найденных на каждом из этих серверов. Из этих документов выберите, в первую очередь, те, которые присутствуют в списках на всех серверах, затем – те, которые найдены любыми двумя из них. Остальные внимательно проверьте на соответствие тематике, включая загрузку документа и просмотр его содержания, и отберите из них несомненно пригодные.
10. Проверьте в каждом из отобранных документов наличие всех тех ключевых слов, по которым производился поиск. Попробуйте ранжировать эти отобранные документы. Самые важные – это те, которые содержат все без исключения ключевые слова, по которым производился поиск. Наименее важные – те, в которых содержится самое малое число ключевых слов, использованных при поиске. Перепишите их в таком порядке, чтобы самые важные были вначале, а наименее важные в конце.
11. Прочтите или хотя бы просмотрите все документы и попробуйте самостоятельно их ранжировать по тому, насколько они соответствуют заданной в исходном документе тематике. Сравните результаты ранжирования в этом и предыдущем пунктах.
12. Попробуйте применить более тонкую стратегию ранжирования документов. Для этого попробуйте присвоить ранг каждому из ключевых слов и выражений. Лучше всего для этой цели использовать программу TextAnalist. В ней можно использовать сеть основных понятий, формируемую программой, т. е. составить смысловой портрет документа. Из него можно извлечь основные понятия и устойчивые словосочетания, которые и составят список ключевых слов и выражений. Каждое из них будет характеризоваться смысловым весом, т. е. количественной характеристикой.