Чтение онлайн

на главную

Жанры

Электронные издания

Вуль Владимир Абрамович

Шрифт:

15.Какова последовательность работы с текстом этой программы? Что такое "сеть понятий" и как она формируется?

16.Какая численная характеристика используется для описания элементов сети? Как оценивается связь между парами понятий? Где можно прочесть ее численное значение?

17.Что такое "тематическая структура" исследуемого в программе TextAnalyst документа? Как просмотреть эту структуру?

18.Какие специализированные модули следует пополнять в издательской базе данных для обеспечения правильной информационной политики данного издательства? Каково должно быть содержание

этих модулей?

19.Как построить информационно-поисковую систему на основе браузера? Какие основные части в нее следует включить? Можете ли вы изобразить схему информационного взаимодействия между этими частями системы?

20.Какие модели поиска возможны в информационно-поисковых системах? Какие из них чаще используются и почему?

21.Как осуществляется коррекция запроса в зависимости от множества документов, полученных в результате его выполнения?

22.Какую роль играет "информационный профиль" системы? Какие средства для его представления используются?

23.Что такое тезаурус? Какова роль синонимов, омонимов и морфологических вариаций слов при его составлении?

24.Какова процедура при составлении тезауруса на практике? Какие основные моменты в процессе обработки текста? Как выбирается исходный текст или тексты?

25.Что такое семантический срез и как выглядит структура тезауруса, построенного на основе таких срезов?

26.Что такое, в вашем представлении, профайл пользователя? Как можно сформулировать его определение?

27.Как можно автоматизировать процесс создания профайла пользователя? Какое в этом случае, будет участие самого пользователя?

28.Что такое "стемминг" слов и для чего он нужен? Какие алгоритмы используются для реализации "стемминга"?

Самостоятельная (лабораторная) работа

Работа № 8.1. Семантический анализ заданного документа и организация поиска документов, близких по тематике

Порядок выполнения работы

1. Скопируйте в одну из папок (например, c:\el-pubs\lab-81) на жестком магнитном диске вашего ПК папку К главе 8 – документы для анализа, размещенную на гибком магнитном диске, прилагаемом к пособию. В папке находятся 16 различных файлов в формате DOC.

2. Загрузите имеющийся на вашем компьютере редактор Word (любой из версий от Word 97 до Word 2002) и откройте в нем один из документов, например 5.doc. Анализ этого заданного документа, а затем поиск и ранжирование найденных документов на соответствие их тематики тематике исходного документа составит предмет этой работы.

3. Вызовите диалоговое окно Автореферат (см. разд. 8.3.1), установите размер реферата 25% и задействуйте опцию Обновить сведения о документе . Затем командой Файл | Свойства активизируйте диалоговое окно Свойства , выбрав в нем вкладку Документ . Выпишите ключевые слова из соответствующей строки.

4. Попробуйте разделить исходный документ на несколько (2—4) части, оставив за каждой частью прежнее наименование. Далее проанализируйте каждый из вновь полученных документов (частей исходного) таким образом, как это указано в п.3. Выпишите ключевые слова для каждого из них.

Затем попробуйте составить общий перечень ключевых слов для всего документа и сравните эти слова с теми, которые были получены в п.3.

5. Если у вас на компьютере установлена программа TextAnalist, то проанализируйте исходный документ с помощью этой программы и выделите 10 наиболее важных ключевых слов и выражений. Выпишите эти слова.

6. Если у вас установлена программа MTAS (см. разд. 8.3), то с помощью этой программы постройте график частот отдельных слов и выражений, встречающихся в исходном документе. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.

7. Если программы MTAS у вас нет, попробуйте вручную построить такой же график, подобный рассмотренному в п. 6. При построении графика однокоренные слова учитывайте как повторяющиеся значения слова. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.

8. Сравните составленные списки. Обязательно выберите повторяющиеся в различных списках слова и выражения в итоговый список ключевых слов. При отборе обязательно учитывайте тематику исходного документа. Ключевые слова должны соответствовать этой тематике.

9. Из выбранных ключевых слов составьте поисковое выражение и используйте это выражение для поиска близких по тематике документов на 3 основных отечественных поисковых серверах: Rambler, Aport и Yandex. Выпишите название и местоположение первых 20 или 30 из числа документов, найденных на каждом из этих серверов. Из этих документов выберите, в первую очередь, те, которые присутствуют в списках на всех серверах, затем – те, которые найдены любыми двумя из них. Остальные внимательно проверьте на соответствие тематике, включая загрузку документа и просмотр его содержания, и отберите из них несомненно пригодные.

10. Проверьте в каждом из отобранных документов наличие всех тех ключевых слов, по которым производился поиск. Попробуйте ранжировать эти отобранные документы. Самые важные – это те, которые содержат все без исключения ключевые слова, по которым производился поиск. Наименее важные – те, в которых содержится самое малое число ключевых слов, использованных при поиске. Перепишите их в таком порядке, чтобы самые важные были вначале, а наименее важные в конце.

11. Прочтите или хотя бы просмотрите все документы и попробуйте самостоятельно их ранжировать по тому, насколько они соответствуют заданной в исходном документе тематике. Сравните результаты ранжирования в этом и предыдущем пунктах.

12. Попробуйте применить более тонкую стратегию ранжирования документов. Для этого попробуйте присвоить ранг каждому из ключевых слов и выражений. Лучше всего для этой цели использовать программу TextAnalist. В ней можно использовать сеть основных понятий, формируемую программой, т. е. составить смысловой портрет документа. Из него можно извлечь основные понятия и устойчивые словосочетания, которые и составят список ключевых слов и выражений. Каждое из них будет характеризоваться смысловым весом, т. е. количественной характеристикой.

Поделиться:
Популярные книги

Идеальный мир для Лекаря 12

Сапфир Олег
12. Лекарь
Фантастика:
боевая фантастика
юмористическая фантастика
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 12

Повелитель механического легиона. Том I

Лисицин Евгений
1. Повелитель механического легиона
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Повелитель механического легиона. Том I

Воевода

Ланцов Михаил Алексеевич
5. Помещик
Фантастика:
альтернативная история
5.00
рейтинг книги
Воевода

«Три звезды» миллиардера. Отель для новобрачных

Тоцка Тала
2. Три звезды
Любовные романы:
современные любовные романы
7.50
рейтинг книги
«Три звезды» миллиардера. Отель для новобрачных

Мой любимый (не) медведь

Юнина Наталья
Любовные романы:
современные любовные романы
7.90
рейтинг книги
Мой любимый (не) медведь

Сопряжение 9

Астахов Евгений Евгеньевич
9. Сопряжение
Фантастика:
боевая фантастика
постапокалипсис
технофэнтези
рпг
5.00
рейтинг книги
Сопряжение 9

Сержант. Назад в СССР. Книга 4

Гаусс Максим
4. Второй шанс
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Сержант. Назад в СССР. Книга 4

Табу на вожделение. Мечта профессора

Сладкова Людмила Викторовна
4. Яд первой любви
Любовные романы:
современные любовные романы
5.58
рейтинг книги
Табу на вожделение. Мечта профессора

Довлатов. Сонный лекарь 2

Голд Джон
2. Не вывожу
Фантастика:
альтернативная история
аниме
5.00
рейтинг книги
Довлатов. Сонный лекарь 2

70 Рублей - 2. Здравствуй S-T-I-K-S

Кожевников Павел
Вселенная S-T-I-K-S
Фантастика:
боевая фантастика
постапокалипсис
5.00
рейтинг книги
70 Рублей - 2. Здравствуй S-T-I-K-S

Провинциал. Книга 4

Лопарев Игорь Викторович
4. Провинциал
Фантастика:
космическая фантастика
рпг
аниме
5.00
рейтинг книги
Провинциал. Книга 4

Горничная для тирана

Шагаева Наталья
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Горничная для тирана

Вечный. Книга IV

Рокотов Алексей
4. Вечный
Фантастика:
боевая фантастика
попаданцы
рпг
5.00
рейтинг книги
Вечный. Книга IV

Как я строил магическую империю 3

Зубов Константин
3. Как я строил магическую империю
Фантастика:
попаданцы
постапокалипсис
аниме
фэнтези
5.00
рейтинг книги
Как я строил магическую империю 3