Электронные издания
Шрифт:
16.Какими способами или методами организуется хранение электронных публикаций? В чем вы усматриваете различия между ними? Каковы преимущества и недостатки каждого из них?
17.Для чего нужна поисковая система и какие способы организации поиска вы знаете? В чем различия между ними? Какой поисковой системой вы пользовались и в каких случаях?
18.Какие модели полнотекстового поиска вы знаете? В каких ситуациях вы пользовались этими моделями? В чем отличие между ними? Какая модель более эффективна и в каких случаях?
19.Какие критерии эффективности полнотекстового поиска вы знаете? Что такое "точность" и "охват" как характеристики
20.Как оптимизировать структуру издательской базы данных, чтобы она наиболее полно соответствовала предъявляемым требованиям?
21.Какие вы знаете технические средства для долговременного (многолетнего) хранения информации? Чем они отличаются друг от друга с точки зрения технических и стоимостных характеристик?
22.Какие параметры следует хранить в атрибутивной базе данных? Как и по каким параметрам следует реализовать поиск в такой базе?
23.Как и по каким критериям следует строить интерфейс системы поиска изданий по ключевым словам? Как осуществлять выбор ключевых слов и их соединение в логические конструкции?
24.Какие технические средства для доставки потоковой информации клиенту вы знаете? В чем их отличия от обычных персональных компьютеров?
25.Какие файловые и операционные системы используются для доставки информации клиенту?
26.Какая модель взаимодействия медиа-сервера с клиентом применяется в таких системах?
27.Какие подсистемы используются на клиентском (пользовательском) рабочем месте? Назначение каждой их этих подсистем?
28.Как на практике осуществить публикацию содержимого баз данных в виде статических Web-страниц?
29.В чем состоят особенности публикации содержимого баз данных в виде динамических Web-страниц? Какие вы знаете варианты динамического связывания этих страниц с внешними источниками информации?
30.Какой вариант динамического связывания Web-страниц с внешними источниками представляется вам более предпочтительным? По каким причинам? Приходилось ли вам работать со скриптами? Пытались ли вы использовать в них язык Perl?
Глава 8 Метаинформация и автоматизация извлечения атрибутов и ключевых слов
В главе рассмотрены теоретические вопросы, связанные с ролью метаинформации в поисковых стратегиях, а также методах семантического анализа любых документов и их программной реализации. Описываются также методы автоматического занесения информации, извлекаемой из сети Интернет, в специальные модули атрибутивной базы данных издательства.
8.1. Роль метаинформации в поисковых стратегиях
Повсеместное распространение информационной среды Интернет привело к определенному забвению традиционных методов поиска изданий и документов и заметному перекосу в направлении использования однонаправленных ссылок, служащих для организации переходов от одного документа к другому в гипертекстовой БД. Такие ссылки не имеют атрибутов, не обеспечивают структурирования и классификации документов. Эти ссылки представляют собой лишь механизм структурирования содержимого Webузлов, но и в этом случае не могут обеспечить организацию такой иерархической структуры, в которой документы были бы классифицированы хотя бы по одному параметру.
В настоящее
8.1.1. Общая характеристика метаданных и их применение
Для большинства Web-приложений принятой практикой является хранение документов без соответствующей метаинформации, которая указывает автора произведения, время его создания, срок хранения, права доступа и пр. В этих условиях затрудняется поиск специфической информации. С одной стороны это связано с тем, что контекстный поиск ведет к необходимости анализа большого числа документов, которые даже по тематике никак не могут быть отнесены к требуемому их множеству. С другой стороны, в сети Интернет циркулирует огромное количество устаревших документов, доступ к которым нельзя прекратить из-за отсутствия у них самого понятия "срок хранения".
Однонаправленные ссылки, используемые в сети в настоящее время, по существу, препятствуют использованию метаинформации, которая должна обеспечивать описание не только отдельных документов, но и их объединений различного уровня. Поэтому однонаправленные ссылки должны заменяться двунаправленными, снабженными такими атрибутами как имя автора (авторов), время создания, срок хранения и, вероятно, даже тематическое направление. Интересно отметить, что такие атрибуты рекомендовано хранить не вместе с документами, которые они характеризуют, а в отдельной базе данных, что позволит существенно упростить и ускорить поиск таких документов.
Для описания метаданных консорциумом W3C подготовлен стандартный формат их представления – Resource Description Framework (RDF), который определяет основные принципы обработки метаданных и обеспечивает функциональную совместимость Web-приложений, обменивающихся такой информацией. В RDF использованы принципы объектно-ориентированного программирования и моделирования и элементы языков HTML, SGML и XML. Следует заметить, что с одной стороны язык XML описывает в RDF синтаксис метаданных, а RDF, в свою очередь, позволяет описывать семантическую структуру XML-документов и передавать смысл данных, заключенных между XML-тегами. Видимо, именно с помощью метаданных и стандарта RDF постепенно может начаться процесс постепенного превращения Всемирной паутины в упорядоченную систему хранения и модификации разнообразной информации, полностью пригодную для выполнения эффективного поиска и извлечения данных. С другой стороны с помощью метаданных возможно удастся сделать из WWW информационное хранилище, обеспечивающее не только быстрый поиск и удобный доступ к документам, но и эффективное управление огромными объемами данных.