Электронные издания
Шрифт:
Таким образом, атрибутивная выборка выглядит гораздо предпочтительнее как с точки зрения эффективности и скорости выборки, так и экономии дискового пространства. Однако, для ее практического применения необходимо знать поисковые атрибуты, что возможно далеко не во всех случаях.
Во многих случаях следует остановиться на промежуточном варианте, когда наряду с атрибутами в поисковой среде хранится набор ключевых слов и терминов, каждый из которых связан с определенным кругом изданий. При включении нового издания в поисковую структуру из набора ключевых слов отбирается несколько, в наибольшей степени отвечающих тематике и содержанию издания. При поиске информации пользователь также просматривает список ключевых слов и отбирает
Помимо обеспечения возможности эффективной выборки нужного издания, очень важно то, как следует организовать хранение изданий, чтобы гарантировать только санкционированный доступ к этому хранилищу. Дополнительные трудности на организацию процесса хранения накладывает использование во многих изданиях мультимедийных компонентов.
7.3.3. Оптимизация структуры базы данных
Из двух предыдущих разделов следует, что для лучшей защиты данных от несанкционированного доступа и ускорения работы поисковой системы целесообразно разделить функции поиска документов и их извлечения из базы данных. Для поиска целесообразно использовать атрибуты и ограниченный набор ключевых слов и выражений. Причем предпочтительнее производить атрибутивный поиск, и лишь при незнании пользователем атрибутов может быть организован контекстный поиск по ключевым словам и выражениям. Но и во втором случае пользователь не придумывает эти слова и выражения, а выбирает их из ограниченного множества, предоставляемого ему атрибутивной базой данных. Результатом такого поиска будет извлечение сведений об издании. Целесообразно применение вспомогательной БД сравнительно небольшого информационного объема, в которой хранятся так называемые метаданные – атрибуты документа: автор, название издания, формат, версия, аннотация, резюме, рецензии и отзывы. Для организации поиска по контексту полезно хранить в атрибутивной БД также и ограниченное множество ключевых слов. Это множество должно адекватно отображать ту предметную область, в которой работает издательство.Из этого множества автором и редактором каждого издания отбирается подмножество слов и выражений, каждое из элементов которого полностью отвечает тематике данного издания. Возможно и автоматическое извлечение ключевых слов и выражений из аннотации, предисловия, рецензий и прочих документов, в концентрированной форме отражающих особенности издания. Однако затем следует сличить извлеченные автоматически выражения с множеством хранимых в базе данных, оставив только то, что попадает в зону пересечения этих множеств. Это традиционная реляционная БД, организованная в виде совокупности полей, соответствующих структуре метаданных. По атрибутивному запросу клиенту возвращается один документ или список релевантных документов в форме миниатюр, из которых он выбирает нужное издание, за которым может затем обратиться в основное информационное хранилище, если он обладает соответствующими правами доступа. Те же, кто ими не обладает, получает миниатюру, а также некоторые вспомогательные документы, характеризующие издание: аннотацию, рецензии, иногда – оглавление или развернутый план-проспект. Общая структурная схема такой базы данных представлена на рис. 7.5.
7.4. Проектирование хранилища изданий и атрибутивной БД
Ядром издательской системы (см. рис. 7.1), структура которой и требования к которой обсуждались ранее, является хранилище изданий или архив издательства. Для работы с полными документами, какими несомненно являются тексты изданий и их версий, более пригодными представляются объектно-ориентированные БД, в которые могут быть включены различные индексные структуры и методы доступа для объектов определенного типа. В них же проще создать иерархию типов, которая будет отражать специфическую семантику. Сказанное еще в большей степени применимо для изданий, в которых используются фрагменты мультимедиа различных типов и форматов. Возможно также создание комбинированных объектно-реляционных БД.
Хранилище данных – это централизованный интегрированный депозитарий информации. В данном контексте слово интегрированный означает, что удалена избыточная и ошибочная информация, выполнено объединение данных и полученная выверенная информация объединена в новую структуру. Хранилища данных отличаются от производственных баз данных или систем оперативной обработки транзакций (on-line transaction processing – OLTP) своим назначением и устройством. Действительно, OLTP-системы проектируются и оптимизируются для регулярного ввода, извлечения и обновления данных, тогда как хранилища данных – для длительного хранения и периодического извлечения данных. В OLTP-системах находятся текущие данные,
Основой хранилищ данных служит или реляционная модель, или многомерная схема. В реляционных системах трудно представлять отношения между конкретными объектами. Структуры данных в реляционных БД (РБД) плохо подходят для индексации текста. По этой причине в системы, опирающиеся на РБД, дополнительно включают средства полнотекстового поиска. Стоит, однако, иметь в виду, что такие разработчики СУБД, как Informix, Oracle и IBM, работают над улучшением способов работы с текстом в РБД. В ООБД имеется возможность разработать индексные структуры и методы доступа специально для объектов определенного типа. Кроме атрибутов для объектов можно определить семантику, формализованную в операциях над ними, и создать иерархию типов, которая будет отражать все более и более специфическую семантику.
Например, система, построенная на ООБД, может иметь тип данных content-object с операцией play. На следующих уровнях иерархии могут быть подтипы для объектов со специфическим содержанием: audio-object, video-object, animation-object, и подтипы для специфических форматов: WAVaudio-object, MP3-audio-object, MPEG2-video-object и пр. Независимо можно ввести тип text-index, определив для него операции автоматической индексации и выполнения запросов. В ООБД в число атрибутов могут включаться указатели на индивидуальные объекты – что позволяет легко реализовать упомянутые выше отношения вхождения документов.
Резюмируя, отметим, что ООБД сами по себе имеют достаточный потенциал, чтобы стать законченным решением для системы на серверной стороне. Считается, что ООБД уступают реляционным системам в надежности, работоспособности и возможностях передачи данных, т. е. характеристиках, существенных для масштабируемости. Однако, новый Universal Server компании Informix, в котором объединены "объектно-реляционные" средства Illustra с масштабируемостью самой Informix, сможет преодолеть эти недостатки. Программное обеспечение DataBlade, входящее в Informix Universal Server, хорошо согласуется с рассматриваемой архитектурой издательской системы. Помимо того, в DataBlade имеется возможность определять семантику новых типов данных непосредственно в БД.
7.4.1. Технические средства долговременного хранения информации
Жесткий магнитный диск (ЖМД) и накопитель CD-ROM считаются обязательными принадлежностями любого современного ПК. Современные носители на ЖМД для ПК и серверов вмещают до 100 Гбайт данных. Еще в 1999 году была представлена дисковая система хранения данных серии Symetrix 5700/3700, которая позволяла хранить 6 Тбайт данных. В этой системе применяется 128 жестких дисков с емкостью 47 Гбайт каждый.
Ассортимент альтернативных устройств весьма разнообразен и включает в себя дисководы со сменными компакт-и DVD-дисками, магнитно-оптическими носителями, накопители CD-R и DVD-R с однократной записью, а также CD-RW и DVD-RAM с многократной записью. Идеальное устройство, которое имело бы невысокую цену при хорошем быстродействии и емкости, было бы рассчитано на недорогие носители длительного срока службы и нечувствительно к воздействию окружающей среды, пока еще не изобретено.
Различные технологии записи/чтения данных: оптическая, магнитная, магнитно-оптическая (МО) обычная и LIMDOW-технология с ускоренной однопроходной записью, способ изменения агрегатного состояния поверхности носителя (Phase-Change Dual, PD) – обусловливают большой разброс потребительских свойств отдельных групп моделей. Практически все устройства несовместимы между собой – за исключением моделей одного и того же семейства.
Уже создано достаточно продукции, записанной на DVD-дисках, в то же время стоимость дисководов опустилась до приемлемого уровня. В компьютерной индустрии цена законченного решения накопителя DVD-ROM стала ниже 100 долларов и эти накопители начали включать в стандартную комплектацию многих ПК средней ценовой категории. С конца 2000 г. накопители DVD-ROM начали постепенно вытеснять дисководы CD-ROM. В 2000 г. объем продаж продукции, оснащенной дисководом DVD-ROM, составил около 5 млн. единиц.
От всех существующих запоминающих устройств компакт-диск отличается одним важным качеством – совместимостью, которая всегда имела высший приоритет при разработке CD-стандартов. Дисковод CD-ROM способен читать данные различных типов: аудио и видео, а также текстовые и графические файлы. Устройство записи компакт-дисков позволяет подготавливать диски мультимедиа, которые читаются любым дисководом для компакт-дисков. Устройства чтения компакт-дисков современного поколения превысили кратность 50, т. е. имеют скорость обмена данными свыше 7,5 Мбайт/с. Все эти модели способны читать многократно перезаписываемые диски CD-RW (CD-ReWritable). Это их свойство называется Multiread.