Электронные издания, Вуль Владимир Абрамович

Электронные издания

на обложку

Вуль Владимир Абрамович

Шрифт:

Все известные традиционные промышленные технологии имеют ограниченную сферу применения, что обычно следует из самого их названия. В то же время трудно привести пример области науки или техники, которая хотя бы потенциально не была связана с технологиями мультимедиа. Цифровое мультимедиа объединяет все известные формы представления информации – текст, графику и фотографические изображения, цифровое видео и аудио, цифровые модели объектов и интерактивные данные, такие как Java-апплеты. Главная задача мультимедиа-технологий состоит в интеграции процессов создания, управления и распространения информации любого вида.

Современное издательство постепенно превращается в систему для переработки и хранения цифровой медиа-информации. В функции издательской системы будет входить оцифровка, индексация, длительное хранение, извлечение и защита от несанкционированного доступа цифровой медиа-информации в распределенной сетевой среде. Можно перечислить основные подсистемы издательской информационной системы, представленные на рис. 7.1 [7, 10]:

✓ централизованное хранилище цифровой информации всех типов и форматов;

✓ совокупность цифровых технологий для загрузки изданий в хранилище и их каталогизации;

✓ система поиска и просмотра первичной информации;

✓ доставка единиц хранения информации работнику издательства для редактирования. Такая издательская система обязана обладать определенным набором свойств. Она должна обеспечить:

✓ хранение всех типов данных в едином информационном пространстве;

✓ минимизацию ручного труда по каталогизации и индексации информации;

✓ доступность информации с любого клиентского компьютера;

✓ возможность нахождения издания по его информационным характеристикам;

✓ беспроблемную стыковку клиентского программного обеспечения со средствами обработки и создания содержания изданий;

✓ доступность издания только для лиц с соответствующими правами доступа.

Рис. 7.1. Информационная система современного издательства

Рассмотрим составные элементы информационной структуры издательства (рис. 7.1). Основные компоненты системы локализуются на сервере или нескольких серверах. В частности, отдельный сервер обычно используют для ведения издательской базы данных. Иногда может быть выделен специальный сервер доставки информации клиенту, реже – сервер для поиска нужных электронных изданий. Для интеграции сервера (серверов) с клиентскими компьютерами используется специальная интрасеть. Роль и характеристики таких интрасетей рассмотрены в разд. 7.2. Наконец, посредством экстрасети и сети Интернет могут быть подключены территориально удаленные отделения и сотрудники издательства и некоторые контрагенты, с которыми поддерживается регулярная информационная связь. В качестве таких бизнес-партнеров могут быть оптовые и мелкооптовые книготорговые предприятия, крупные книжные магазины и полиграфические предприятия, которые регулярно выполняют заказы издательства на изготовление тиража книг или журналов. Крупные издательства нередко поддерживают постоянные связи с поставщиками бумаги и других полиграфических материалов.

Ядром любой издательской информационной системы является хранилище изданий. Естественно, издания хранятся в электронной форме, т. е. хранилище электронных изданий – основной компонент информационной системы издательства. Поэтому требования к этому компоненту и особенности организации хранения электронных изданий будут рассмотрены в специальном разделе. Здесь следует лишь отметить, что для организации эффективного поиска изданий, наряду с содержанием самих изданий необходимо хранить атрибутивную информацию или метаданные. В состав метаинформации обычно включают: имя автора или авторов, название издания, время первой публикации издания, название издательства, принадлежность авторских прав, характер представления данных (тип файла) и пр.

Загрузчик является той частью издательской системы, которая должна сделать ввод изданий и документов настолько эффективным, насколько это возможно. Поскольку количество вводимой информации велико, становится понятно требование минимизации ручного труда в этом процессе. При вводе электронных изданий одновременно должны генерироваться метаданные для каталогизации и индексирования, на основе которых документы могут затем извлекаться пользователями. Известно несколько способов автоматизации, соответствующих разным методам доступа к данным. Наиболее известен и хорошо отработан метод автоматической индексации полного текста.

Самые прогрессивные средства индексации текста базируются на технологии семантических сетей, в которой значения слов определяются по контексту, а не просто

подбором унифицированных терминов для отдельных слов, однако пока работу программных средств нельзя назвать безупречной. Представляется оправданным включение в метаданные ключевых слов, отобранных автором и редактором, так как лучше них никто не сможет подобрать набор ключевых слов, оптимально характеризующих как тематическую область издания, так и его отличия от близких по тематике. В издательской деятельности возможна автоматическая генерация связей для отношений "содержится" и "используется в" путем разбора языка компоновки страниц и выделения элементарных объектов из составных документов. Чем более структурирован язык описания страниц, тем легче выделять информацию: форматы с высоким уровнем структуризации, подобные Adobe FrameMaker и SGML, гораздо эффективнее, чем форматы со специальной структурой типа QuarkXPress и Word. Хуже всего интерпретируются форматы, не имеющие четко выраженной структуры, такие как PostScript и, в меньшей степени, PDF.

До сих пор не существует общих средств автоматического выделения нетривиальной информации из изображений, аудио и видео, но некоторые разработчики (Kodak, LivePicture, Virage, Excalibur) занимаются исследованиями в этой области. Иногда атрибутивные метаданные могут генерироваться просто путем извлечения информации из определенных форматов данных. Лучший пример этого – форматы файлов графического редактора Adobe Photoshop, которые содержат массу полезной информации.

При загрузке добавляются не только метаданные, но и вспомогательные представления документов, в частности, миниатюры, отражающие внешний вид издания. Генерация миниатюр также может быть автоматизирована. Например, большинство графических форматов содержат свои собственные миниатюры, для других, например для изображений с высоким разрешением, можно сгенерировать их "на лету". Аналогично можно спроектировать загрузчик таким образом, чтобы он, получая цифровые аудиообъекты, создавал клипы первых нескольких секунд звучания в одном из стандартных простых форматов (например, в формате WAV 10 кГц). Таким же образом видеоинформация в формате MPEG-2 может преобразовываться в клипы QuickTime длительностью в 5 или 10 с.

Существует два базовых способа доставки цифровых документов пользователю: передача файлов – ее можно использовать для текстов, изображений, аудио и видео с низким качеством, и поточная передача – для высококачественного "движущегося" медиа, т. е. аудио, видео и анимации. Этот последний способ предъявляет очень серьезные требования к возможностям сервера, осуществляющего такую потоковую доставку информации.

При хранении мультимедиа-данных требования к вычислительным ресурсам, необходимым для передачи документов, качественно отличаются от требований к подсистеме хранения. Поэтому, во многих случаях, выделяется отдельный сервер доставки данных. В первую очередь этот сервер должен иметь высокую пропускную способность для передачи мультимедийных объектов из хранилища на клиентские компьютеры. В идеале хранилище изданий должно включать в себя возможность многосерверного доступа так, чтобы гарантировать параллельную работу сервера хранилища изданий и сервера доставки данных. Сервер доставки обязан обеспечивать гарантированную полосу пропускания для потока данных, поэтому в архитектуре сервера должны быть сбалансированы ресурсы процессора, периферии ввода/вывода и сетевых интерфейсов. Программное обеспечение сервера доставки, во-первых, должно включать средства низкого уровня для работы с файлами, обеспечивающие различные режимы проигрывания медиа. Во-вторых, необходимо, чтобы оно же определяло стандартные интерфейсы для разработки приложений – "плееров" на клиентской стороне и реализовывало серверную часть этих интерфейсов.

В большинстве случаев используется так называемое "сквозное проигрывание" (playthrough), что дает возможность начать просмотр мультимедийного издания еще до того, как оно полностью загружено на сервер доставки. Например, сервер MediaCenter фирмы Sun позволяет начать воспроизведение аудио– или видеоданных уже через 5 секунд после начала загрузки. Сквозное проигрывание необходимо для приложений с быстрым и непрерывным обновлением содержания. Режим playthrough развивает метод оперативной загрузки, который заключается в способности сервера одновременно загружать один и воспроизводить другой документ.

На уровне операционной системы видеоматериалы представляются взаимосвязанной совокупностью файлов. Таким образом, для фильма в цифровой форме хранятся файлы одного или нескольких видеопотоков и файл для аудиопотока. В дополнение к файлам содержания существуют вспомогательные файлы, которые поддерживают распределение первичного файла по разным дискам (striping), синхронизацию между отображением видео и звучанием аудио, обеспечивают различные режимы воспроизведения.

Браузер, как уже отмечалось в предыдущей главе, представляет собой основной интерфейс пользователя для доступа и просмотра электронных изданий. Отделение браузера от уровня клиентских сервисов подчеркивает тот факт, что он может быть реализован с помощью любого стандартного Webбраузера, что дает множество преимуществ, например, независимость от платформы. Наращивание функциональных возможностей может происходить путем добавления сервисов в рамках задаваемой браузером общей организации просмотра и редактирования.

Браузер обеспечивает интерфейс с сервисом запросов и должен выполнять следующие функции:

✓ иерархический доступ к каталогам и файлам, аналогичный менеджеру файлов;

✓ интерфейсы для поиска;

✓ просмотр списка ответов, включающего миниатюры;

✓ навигацию по связям между документами.

Если данный клиент обладает правами доступа к хранилищу изданий, он может, выбрав одну из миниатюр, сформировать запрос к хранилищу изданий на получение необходимого документа. После определенного времени ожидания, связанного с выбором соответствующего информационного носителя в хранилище, сервер доставки начнет передачу клиенту запрошенной информации. Второй главный компонент браузера – средства просмотра для мультимедийных изданий. Для этого компонента существенно, чтобы медиа-документы были представлены в распространенных форматах либо легко преобразовывались в них. Браузер, однако, должен быть способен получать документы в их родных форматах и активизировать соответствующие приложения обработки, например, чтобы пользователь мог редактировать документы.

Работа с медиа-информацией предполагает несколько различных способов доступа к объектам хранения. Довольно часто медиа-документы бывают организованы так, что имеют простую иерархическую структуру. В этом случае доступ к ним может быть реализован через аппарат файловой системы сервера. Большие сложности вызывают запросы по атрибутам и запросы по ключевым словам, описывающим содержание. Оба эти параметра входят в метаданные, которыми документы дополняются при загрузке в хранилище. Для составных документов хороший способ состоит в том, чтобы не хранить их целиком, а включать в них навигационные связи с вложенными объектами. Например, если в системе хранится журнал, то должны быть связи между его страницами и отдельными объектами, которые содержат статьи, фото, рекламу.

Система хранения обязана обеспечивать несколько видов представления документов. Каждый документ должен иметь уменьшенную копию – миниатюру (thumbnail), которая компактно представляет его и возвращается пользователю в списке результатов запроса. Такое представление может быть заголовком или титульной страницей (для текстовых объектов), уменьшенным изображением (для графики), пятисекундным отрывком аудио– или видеоклипа.

Различные формы взаимодействия могут применяться и при доступе к самому изданию. В частности, представление "только для просмотра" дает пользователю возможность изучения содержания издания без права редактировать его. Примеры такого представления – формат Adobe Acrobat PDF, представление изображений в формате экрана (viewer), цифрового видео – в формате QuickTime и пр.

Сейчас для хранения информации преимущественно используются реляционные БД, обладающие мощным потенциалом, масштабируемостью, стандартным языком запросов по атрибутам SQL (Structured Query Language).

Однако они не проектировались для хранения исходных, полных документов, а тем более – мультимедийных. Для работы с полными документами более пригодными представляются объектно-ориентированные БД, в которые могут быть включены различные индексные структуры и методы доступа для объектов определенного типа. В них же проще создать иерархию типов, отражающую специфическую семантику. Сказанное представляется особенно важным для медиа-объектов различных типов и форматов. Возможно также создание комбинированных объектно-реляционных БД.

Для работы с медиа-документами больше подходят объектно-ориентированные БД (ООБД). В ООБД можно разработать индексные структуры и методы доступа специально для объектов определенного типа. Кроме атрибутов для объектов можно определить семантику, формализованную в операциях над ними, и создать иерархию типов, которая будет отражать все более и более специфическую семантику.

Например, система, построенная на ООБД, может иметь тип данных content-object с операцией play. На следующих уровнях иерархии могут быть подтипы для объектов со специфическим содержанием: audio-object, video-object, animation-object, и подтипы для специфических форматов: WAVaudio-object, MPEG2-video-object. Независимо можно ввести тип text-index, определив для него операции автоматической индексации и выполнения запросов. В ООБД в число атрибутов могут включаться указатели на индивидуальные объекты, что позволяет легко реализовать упомянутые выше отношения вхождения документов.

Резюмируя, можно сказать, что ООБД сами по себе имеют потенциал, чтобы стать законченным решением для системы на серверной стороне. Считается, что ООБД уступают реляционным системам в надежности, работоспособности и возможностях передачи данных, т. е. характеристиках, существенных для масштабируемости. Ожидается, однако, что Universal Server компании Informix, в котором объединены "объектно-реляционные" средства Illustra с масштабируемостью самой системы Informix, сможет преодолеть эти недостатки. Программное обеспечение DataBlade, входящее в Informix Universal Server, хорошо согласуется с предлагаемой архитектурой издательской системы. Помимо того, в DataBlade имеется возможность определять семантику новых типов данных непосредственно в БД.

Информационное хранилище издательства опирается на файловую систему сервера. Чтобы реализовать стратегию хранения данных, от файловой системы требуется поддержка управления томами и иерархического управления памятью (Hierarсhical Stirage Management – HSM). HSM, грубо говоря, – это примерно то же самое, что виртуальная память для физической ОП: она позволяет рассматривать различные уровни памяти (в частности, жесткие и оптические диски, магнитную ленту, если она используется) как одну большую файловую систему.

Если пользователь или приложение открывает файл, то он либо уже находится на жестком диске, либо HSM считывает его с автоматически текущего оптического диска из многотомной дисковой системы, либо извещает оператора о необходимости найти нужный том. Последний может находиться внутри специального блока для смены дисков ("чейнджера") или его следует найти внутри библиотеки на полке. В последнем случае для поиска тома с нужным номером и установки его в дисковод требуется помощь оператора, в результате чего полное время обращения многократно возрастает.

Схема HSM несомненно полезна, но, к сожалению, требует определенного развития. Например, когда пользователь пытается извлечь изображение высокого разрешения, а его размер может достигать десятков мегабайт, или же фрагмент цифрового видеофильма, то было бы полезно, чтобы система формировала специальное сообщение для пользователя, каково будет время ожидания. Последнее, кроме размера файла, зависит также от степени доступности объекта.

Выбор стратегии размещения данных зависит, конечно, от объема данных в медиа-изданиях, но, кроме того, – и от требований по скорости доступа к ним, т. е. оттого какие данные должны быть доступны немедленно, а какие могут стать доступными через секунды или минуты. Например, редактор книги, у которого процесс производства длится несколько недель или месяцев, может счесть для себя приемлемым подождать десять минут и даже больше, пока оператор найдет и поставит нужный диск. Редактор же ежедневной газеты вряд ли согласится ждать, пока будет получена цифровая фотография больше нескольких минут, т. е. его данные должны храниться в многотомной системе на оптических дисках с автоматическим поиском и установкой компакт-диска. Видеоклипы, распространяемые по каналам кабельного телевидения, должны быть доступны практически мгновенно.

7.2. Общая характеристика интрасетей

Интрасеть (Intranet) – это частная корпоративная сеть, использующая программные продукты и технологии Интернет, в частности, Web-браузеры и Web-серверы, и набор TCP/IP протоколов, причем не только и не столько для доступа в Интернет, сколько для работы внутри самой локальной сети. Интрасети могут просто функционировать как автономные сети, не имеющие доступа извне, или быть изолированы от внешних сетей с помощью так называемых брандмауэров (Farewalls), которые предохраняют от несанкционированного попадания в сеть или извлечения из нее пакетов данных (рис. 7.2).

Рис. 7.2. Интрасеть (Intranet) и ее подключение к сети Интернет

Интрасети имеют ряд преимуществ перед локальными компьютерными сетями общего назначения. Корпоративные интрасети позволяют сделать обширные ресурсы сети Интернет легкодоступными для сотрудников. Сочетание Web-ориентированных средств управления с традиционными инструментами расширило функциональные возможности последних. Администраторы, использующие Web-технологии, получили возможность контролировать сети и управлять ими с помощью любого браузера, в любом узле – они больше не привязаны к рабочим станциям. Использование WBM (Web Based Management – сетевое управление на основе Web) позволяет легко преодолевать проблемы взаимодействия различных платформ и архитектур в сложных многоуровневых сетях и обеспечивает графический интерфейс, представляющий информацию в удобном для визуального просмотра виде. Поскольку средства навигации хорошо знакомы пользователям Интернета, то уменьшаются затраты на обучение персонала.

Интрасети по своей структуре сложнее сети Интернет. Одной из причин этого является необходимость сосуществования основного сетевого интернет-протокола TCP/IP с другими протоколами, такими как IPX. Другая сложность заключается в том, что интрасети, как правило, состоят из большого числа различных локальных сетевых объединений и программное обеспечение, предназначенное для рабочих групп более сложное, чем используемое во Всемирной сети. Но, несмотря на сложность проектирования, интрасети приобретают все большую популярность.

Для проектирования Web-приложений применяется множество технологий. Наиболее часто используется HTML. Страницы HTML – это текстовые документы, содержащие любые элементы, присущие графическим пользовательским интерфейсам GUI (Graphic User Interface), т. е. кнопки, списки, звуки, картинки и т. д. Кроме того к ним можно отнести и активные элементы, например, Java-апплеты. С HTML-страницами большинство пользователей хорошо знакомы, а в данной книге проектирование таких страниц рассмотрено в главе 2. Пользователи также привыкли работать с такими браузерами, как Netscape Navigator или Microsoft Internet Explorer (см. главу 5). Сейчас все большую популярность приобретает динамический HTML. Он позволяет формировать различные страницы непосредственно при обращении к ним, в зависимости от действий и запросов пользователя. Другая используемая технология – CGI (Common Gateway Interface) позволяет организовывать доступ к информационным базам данных. Изначально Web-ориентированное программное обеспечение не предназначалось для работы с базами данных, да и сами базы создавались задолго до появления интрасетей, поэтому часто случалось так, что необходимая информация была недоступна одновременно большому числу пользователей. Но так как практически ни одна сеть, в том числе и Интернет, не обходится без больших по объему баз данных, то интерфейс CGI прочно занял свои позиции. Интерфейс CGI не является языком программирования – это интерфейс, который доставляет информацию с сервера к терминалу и обратно. Например, если пользователю интрасети необходимо получить какую-либо информацию из базы данных, формируется сценарий (Script) CGI, обращающийся с запросом к серверу, и результат представляется в виде HTML-страницы. Используя язык HTML, даже никогда не работавший со средствами управления базами данных пользователь может легко составить запрос практически любой сложности и получить необходимую информацию из этой базы.

Любые интрасети могут быть атакованы хакерами. TCP/IP-архитектура интрасетей сходна с архитектурой Интернет, а так как Интернет проектировался в расчете на максимальную открытость и доступность информации, то средства защиты информации минимальны. Результатом этого может стать кража или уничтожение конфиденциальной информации, финансовые преступления, заражение сети вирусами и временный вывод из строя сети и подключенных к ней компьютеров. Вот почему при построении сети важно уделить внимание обеспечению безопасности. Системы, которые ограничивают доступ в интрасеть из внешней сети, и в то же время позволяют работать с ресурсами Интернет, были названы брандмауэрами (firewalls или "защитные стены" в буквальном переводе). Они представляют собой комбинацию аппаратного и программного обеспечения, работающего по принципу информационных фильтров. Основными частями защитных стен являются серверы и маршрутизаторы. Все информационные пакеты, передаваемые в сеть и из сети, проверяются специальным сервером, называемым фильтрационным маршрутизатором, или фильтрационным прокси-сервером. Например, когда пользователю интрасети необходимо получить информацию с сервера в Интернет, запрос с его компьютера посылается на прокси-сервер, а не напрямую во Всемирную сеть. Далее прокси-сервер связывается с конечным сервером и обменивается с ним информацией и только после этого она попадает к пользователю. При этом прокси-сервер проверяет все информационные пакеты, фильтрует их и ведет журнал событий. Администраторы сети сами могут устанавливать правила проверки и фильтрации пакетов и запрещать или разрешать работу каких-либо сетевых служб, например, FTP (File Transfer Protocol) – протокол передачи двоичных файлов.

Максимальную защиту от нападения обеспечивают стены, построенные на серверах-бастионах (bastion-hosts). Такие серверы не позволят проникнуть внутрь сети, даже если они будут сами взломаны. Типичный сетевой сервер предоставляет службы подключения, передачи файлов, печати, доступа к дополнительным серверам и т. д. Бастионы не поддерживают подобные службы, они вообще лишены всех функций, кроме самых необходимых. На бастионах также нет службы учета пользователей, поэтому взломать сервер, используя пароль, крайне затруднительно. И, наконец, поскольку поддерживается небольшое количество функций, то даже если кто-либо проникнет на этот сервер-бастион – он не сможет там ничего сделать.

Для еще лучшей защиты несколько бастионов могут быть объединены в отдельную сеть, называемую периметрической сетью, глубже которой взломщик не может проникнуть. При попытке проникновения серверы могут посылать сигнал тревоги сетевому администратору, а журнал событий может дублироваться на отдельном компьютере, соединенному с бастионом через последовательный порт, что гарантирует невозможность удаленного доступа к журналу.

Сама по себе TCP/IP-архитектура, техническое обеспечение интрасетей, коммуникационные протоколы и так далее не представляют большой ценности. Мощнейшие серверы, оптоволоконные кабели, коммуникационные линии типа Т-1, ISDN-модемы и поточная система передачи мультимедиа не приносят пользы, существуя как отдельные компоненты. Все эти системы важны вместе, потому что они позволяют людям общаться, с высокой скоростью обмениваться информацией и эффективно организовывать коллективную работу.

Практически любая из технологий интрасетей, включая и WWW, призвана помогать людям эффективнее работать совместно. Задолго до появления World Wide Web пользователи сети Интернет уже обменивались друг с другом новостями и идеями через группы новостей USENET. USENET – это своего рода распределенная (в масштабе сети Интернет) доска объявлений. Она содержит более 5 тысяч постоянно поддерживаемых конференций – групп новостей, охватывающих самые разнообразные темы.

Совокупность наиболее мощных технологий и программ для совместной работы названа GroupWare или "обеспечение для групповой работы" (ОГР).

ОГР позволяет людям обмениваться файлами и любой информацией, работать друг с другом в командах над решением общей задачи, сообща разрабатывать проекты и в широком понимании, позволяет людям осуществить тесное информационное сотрудничество независимо от расстояния, на котором находятся друг от друга участники группы.

Сложно дать точное определение ОГР. Этим понятием объединяют всевозможные технологии, начиная от простейших способов общения в чатах (chats – разговоры в сети) и заканчивая новейшими методами проведения видеоконференций. Важно уже одно то, что ОГР позволяет не только организовывать службы информирования, например, рассылку новостей, но и предназначается для общения людей и совместной их групповой работы. При этом люди не собираются вместе, не устраивают традиционные совещания и заседания, даже не просто общаются посредством сети – они работают коллективно над совместными проектами.

Неправильным было бы считать, что ОГР стало возможным лишь с появлением интрасетей. Для групповой работы TCP/IP-архитектура не принесла практически ничего нового. Появление интрасетей лишь привело к быстрому распространению такого рода деятельности. Удобная работа с Web-ориентированными приложениями, качественные пользовательские интерфейсы таких программ – все это способствовало росту числа пользователей, объединявшихся в группы для обмена информацией, файлами, совместной работы над проектами, и, наконец, просто для собственного удовольствия.

Одним из самых распространенных в настоящее время способов общения посредством сети является электронная почта. Она удобна тем, что быстро доставляется информация даже через сравнительно медленную Всемирную сеть, а также позволяет к обычным текстовым сообщениям прикреплять любые двоичные файлы. Почти не отстают от почты по популярности различные виртуальные комнаты обсуждений (discussion или chat-rooms), позволяющие людям обмениваться мнениями по любым вопросам. Обсуждение может происходить в реальном времени или в режиме "вопрос – ответ", когда люди в произвольное время посещают комнаты обсуждений, высказывают мнения или оставляют свои вопросы. Для совместной работы над документами используются электронные доски, виртуальные объекты, позволяющие писать комментарии, исправлять документы, при этом изменения в реальном времени отображаются на экранах всех участников.

Современный деловой мир очень подвижен. Людям приходится работать зачастую далеко от их обычного рабочего места, это и различные командировочные поездки и необходимость проводить много времени в дороге. А поскольку все большее количество проектов выполняется не одним человеком, а большой группой, то интрасети, позволяющие подключаться к ним из любой точки мира через Интернет, сделали реальностью возможность совместной работы над проектом людей, находящихся даже на противоположных сторонах Земного шара. Модем подключается не напрямую к интрасети, а к серверу удаленного доступа. Пакеты, приходящие с такого сервера, пропускаются защитными стенами внутрь сети, и пользователь работает так же, как если бы он находился у себя в офисе. Единственная разница заключается в том, что скорость передачи данных при удаленном подключении гораздо меньше, чем при работе непосредственно в пределах интрасети.

Основной причиной, побуждающей какую-либо организацию создать интрасеть, является необходимость сбора, управления и предоставления информации более быстро и эффективно, чем когда-либо ранее. Интрасети предоставляют реальную возможности межплатформного доступа к информации, так как они базируются на технологиях Интернет, изначально разрабатывавшихся с целью обмена информацией между разнородными системами.

Несмотря на то, что даже небольшие организации могут получить преимущества при внедрении корпоративной интрасети, особо весомые результаты заметны при использовании интрасетей в крупных компаниях. Преимущества интрасети тем ощутимее, чем больше сотрудников работает в компании, чем крупнее размеры сети и чем больше существует удаленных друг от друга офисов. По мере увеличения любой фирме для обеспечения координации работы сотрудников необходимо использование все большего числа указаний, инструкций, руководств, меморандумов и прочих документов, которые нужны фактически всем людям для ежедневной работы. Количество таких документов, их изменяющихся версий вырастает по экспоненциальному закону и своевременное обеспечение ими сотрудников становится настоящей головной болью для руководства. При использовании старых, привычных методов обмена подобной информацией невозможно гарантировать актуальность и немедленную доступность измененных версий документов. Наибольший эффект в подобных ситуациях достигается путем публикации документов на Web-серверах компании.

В интрасети любой пользователь с настроенной рабочей станции через Web-браузер сможет получить доступ к любым самым последним версиям документов как только они будут помещены на Web-сервер. При этом местоположение пользователя и Web-сервера не имеет никакого значения. Если компания попытается использовать в этих целях электронную почту, то она столкнется с огромным количеством проблем. Например, документы для их удобного анализа должны представляться в едином формате, что достаточно просто обеспечить в небольших организациях (10—50 человек) и фактически невозможно в средних и крупных компаниях. Всегда ведь найдется человек со "своим" взглядом на оформление документа. Более того, при применении разнородного программного обеспечения, пользователи будут вынуждены запускать программы преобразования документов в формат, понимаемый их приложениями и тратить время на преобразование каждого документа, созданного другим пользователем. Решением этой проблемы является публикация документов на Web-сервере в формате HTML, "понимаемом" любой операционной системой и любым браузером, используемым клиентом на своем рабочем месте. Экономия средств в крупных фирмах только за счет такой публикации документов может достигать астрономических цифр.

Использование интрасети имеет и ряд других преимуществ. Первое состоит в том, что документы в сети могут обновляться автоматически, в режиме реального времени. Например, вы публикуете документ для отдела продаж, содержащий информацию о ценах на продукцию вашей компании и конкурентов. Для предоставления оптимальных в любой момент времени скидок ваш отдел продаж должен обладать самой актуальной информацией. Для обеспечения такой актуальности вы можете создать сценарий (script) на Web-сервере, в соответствии с которым он будет, автоматически обновлять публикуемый документ с заданным временным интервалом (динамический документ). Сотрудники отдела продаж автоматически будут получать обновленный список цен для своей работы. Выигрыш очевиден, т. е. обеспечивается поддержание актуальности информации и сокращается время непроизводительной работы сотрудников. Кроме того, осуществляется непрерывная обратная связь. Можно в любой момент времени получить сведения о том, кто, когда и сколько раз обращался к опубликованным документам.

Развитие организации постоянно требует новых методов и средств в предоставлении и удобстве использования информации ее сотрудниками. Технологии интрасетей позволяет включать в документы графическую, аудио– и видеоинформацию. Большое количество фирм в настоящее время пользуются приложениями, позволяющими осуществлять доступ к базам данных непосредственно из Web-браузера, применяя различные технологии, например, уже упоминавшуюся выше CGI.

Еще одним преимуществом интрасетей, является тот факт, что доступ к опубликованной информации может осуществляться через сеть Интернет. Сотрудники, находящиеся в командировке, поставщики и заказчики могут получать доступ к опубликованной в вашей интрасети информации. При этом всегда и полностью сохраняется контроль над доступом каждого конкретного человека к любой информации, опубликованной в интрасети.

Интернет сильно повлиял не только на информационную культуру в целом, но и, как следует из быстрого роста корпоративных интрасетей, на развитие деловых отношений внутри корпораций и между ними. С появлением интрасетей у пользователей изменился взгляд не только на сами сети и сетевые компьютерные технологии, но и на возможность ведения электронного бизнеса и документооборота. Интрасети многократно повысили эффективность совместной работы людей в группах. Можно предположить, что в дальнейшем роль интрасетей и их влияния на функционирование корпораций будет постоянно возрастать.

Таким образом, интрасеть создается для организации коллективной работы сотрудников фирмы. Издательства с одной стороны относятся к наиболее компьютеризованным фирмам, а с другой – в них широко используют сетевые технологии для организации совместной работы сотрудников над проектами, призванными распространять и расширять знания, осуществлять их систематизацию и развитие в определенных тематических направлениях.

Основные функции интрасетей следующие:

✓ поиск необходимой информации и документов;

✓ отправка документов (по электронной почте или факсу) в отдаленные офисы;

✓ планирование совещаний и резервирование для них помещений;

✓ организация взаимодействия с помощью голосовой почты;

✓ обслуживание оборудования, предназначенного для печати и копирования документов большого объема.

Интрасети могут также служить превосходным средством общения групп пользователей и позволяют проводить групповые дискуссии, коллективный анализ, а также применяться для контроля и распределения списков потенциальных покупателей. Кроме того, в интрасетях используются все новые решения, основанные на технологии Интернет. Связывая с Web-серверами свои базы данных и системы электронной почты, компании фактически создают новое и современное бизнес-приложение.

Внедрение интрасети сразу же положительно отражается на показателях компании. В частности, благодаря он-лайновой публикации и регулярному обновлению своих каталогов и прайс-листов, организации могут сэкономить огромные средства и немало времени. Поскольку интрасети используют всю полосу пропускания локальной сети, они позволяют сохранять, быстро извлекать и пересылать по запросу большие объемы данных, что превращает их в превосходное средство публикации и распространения документов насыщенных графикой и даже мультимедиа. Именно это качество необходимо в издательстве, сотрудники которого работают с рукописями и осуществляют выпуск сверстанных для печати или специализированных электронных изданий.

Сотрудники получают преимущества мгновенного доступа к самой последней информации, хранящейся в архиве, а издательство может сократить или совсем исключить затраты на промежуточную распечатку изданий. Предоставляя быстрый доступ к разнообразной информации в масштабе всего издательства, интрасети позволяют сотрудникам работать эффективнее, а вся фирма начинает функционировать более слаженно и экономично.

Интрасети быстро становятся основным элементом корпоративных информационных систем. Основное количество Web-серверов используются в настоящее время именно в интрасетях. Большинство издательств пришли к выводу, что такие "внутренние" Web-узлы являются идеальным средством распространения информации среди сотрудников. Причина в том, что интрасеть обладает всеми достоинствами Web-технологий, включая возможности публикации документов, содержащих текст, графику, звук, видео, а также гипертекстовые ссылки. Так как документы создаются в одном и том же гипертекстовом формате, они доступны любому сотруднику издательства посредством Web-браузера. Таким образом, аналогично тому, как глобальная сеть Интернет в корне изменила характер информационного взаимодействия любой фирмы с внешним миром, интрасети совершенно меняют характер внутренних коммуникаций фирмы.

7.3. Анализ требований и разработка структуры издательской базы данных

Ранее уже отмечалось, что информационное хранилище представляет собой ключевой элемент в информационной структуре издательства, от которого во многом зависит выбор программного и информационного обеспечения других компонентов. Именно по этой причине следует детально исследовать системные требования к издательской базе данных и методику выбора структуры такой базы и проектирования ее отдельных компонентов.

7.3.1. Требования к базе данных издательства (издательскому портфелю)

Требования к издательской базе данных, как и любому другому программному продукту, зависят от ее назначения. Назначение издательской БД многогранно. Прежде всего, такая база должна обеспечить надежное и длительное хранение выпускаемой издательством продукции. В современном представлении длительность хранения составляет не менее чем 30 или даже 50 лет.

Другое назначение БД состоит в предоставлении возможности поиска и извлечения хранимой информации сотрудникам данного издательства, а иногда и другим лицам. Практически все произведения, выпускаемые в свет любым издательством, защищены авторским правом, следовательно, извлекаемая из БД информация представляет собой определенную ценность. Вывод: доступ к информации должен быть строго регламентирован, а соответствующее разрешение выдается руководителями издательства или специально уполномоченным ими лицом.

Любое современное издательство в определенной степени выполняет также функции дистрибьютора, по крайней мере, в отношении выпускаемых им самим изданий. Дистрибьюторская функция подразумевает возможность получения различной информации об имеющейся в наличии литературе, для чего в БД должны содержаться библиографические данные изданий, аннотации, оглавления, а также указания относительно места ее хранения на складе, имеющемся количестве ее экземпляров (остатков) в любой момент времени.

Рис. 7.3. Содержание атрибутивной базы данных и хранилища современного издательства

Полезно также иметь возможность оценки количества реализованных экземпляров за определенные отрезки времени и т. п. С этих позиций следует обеспечить возможность доступа к БД для дистрибьюторов, а может быть и для торговых агентов крупных книжных магазинов и посреднических фирм, специализирующихся в распространении изданий. Иногда в издательствах книги продаются со склада и в розницу. Тогда разумно разрешить доступ хотя бы к части базы данных и покупателям. Данное требование вступает в определенное противоречие с предыдущим, так как подразумевает достаточно широкий доступ и в то же время ограничение круга лиц, которые допущены к информации, содержащейся в БД.

Ряд крупных и средних издательств имеют отделения в различных городах. Для них существенным может оказаться обеспечение возможности удаленного доступа к базе, в частности, для получения сведений о наличии изданий в главном офисе, передаче данных о продаже тиражей в отделениях и т. п.

Таким образом, издательская база данных должна обеспечить (рис. 7.3):

✓ длительное хранение изданий с высокой степенью надежности;

✓ возможность поиска и извлечения информации об изданиях сотрудниками издательства, а также представителями оптовых фирм, занимающихся книгораспространением, а иногда и розничным покупателям;

✓ возможность удаленного доступа для получения и занесения информации в базу;

✓ включение и систематическое оперативное занесение информации в специальные модули "Последние издания" различных издательств и "Персоналии".

7.3.2. Методы организации хранения и поиска электронных изданий

В течение длительного времени для хранения электронных копий изданий и их фрагментов используются различные базы данных. В последнее время базы данных стали использоваться и для публикации электронных изданий. Преимущественно это относится к базам данных, которые используются в сети Интернет и связаны с поисковыми серверами, которые, отыскав ссылку на нужное издание в своем поисковом индексе, обращаются к соответствующей сетевой базе данных. Другой вариант публикации – в базах данных, связанных с издательскими серверами.

Существует 2 принципиально разных метода организации хранения электронных публикаций:

1. В виде иерархической файловой системы, в которой файлы отдельных изданий объединены в каталоги по тематическому или другим признакам.

2. В виде текстовой базы данных, в которой размещены файлы изданий.

Первый метод проще с точки зрения организации структур данных, но требует создания и использования дополнительных средств для поиска нужного электронного издания, в особенности, если количество таких изданий достаточно велико. При его использовании, в общем случае, гораздо труднее обеспечить защиту информации от несанкционированного доступа, которая несомненно нужна, так как издания представляют собой определенную информационную и материальную ценность, являясь интеллектуальной собственностью конкретного издательства.

Во втором варианте обычно проще осуществить защиту информации. Методы и средства для этого достаточно разработаны и проверены практикой. Однако, при работе с изданием, связанной с его изменением, используется большое количество операций записи и чтения информации. Это связано с тем обстоятельством, что приложение не может напрямую работать с базой данных. В результате для больших текстовых баз данных существенно снижается скорость обработки информации. Кроме того, возникают определенные проблемы при использовании различных видов информационных носителей, например, жестких магнитных дисков и оптических компакт– или DVD-дисков.

Хранение изданий требует обязательной организации системы поиска. Существуют два варианта поиска изданий пользователем. В первом случае производится поиск электронного издания, о котором точно известно, что оно существует, и известен хотя бы один его поисковый атрибут. Такие системы называют фактографическими, так как в них каждому изданию однозначно соответствуют поисковые атрибуты. Во втором случае ставится задача отыскания всей совокупности электронных изданий по определенному тематическому направлению. В последнем случае заранее неизвестно не только количество изданий, но даже сам факт их существования. Такие системы называют документальными. Большинство аналитических и исследовательских задач на начальной стадии реализации связано с применением второго варианта поиска. В частности, на этапе постановки задачи всегда проводится обзор литературы по рассматриваемому вопросу.

Методы организации поиска также могут быть разделены на 2 группы. К первой из них относится так называемый атрибутивный поиск. Он основан на том, что каждый документ (издание представляет собой частный случай документа) характеризуется определенным набором атрибутов (полей). Эти поля заполнены конкретной информацией, которая изменяется для различных изданий. При поиске проверяется совпадение значений, содержащихся в запросе, со значениями в соответствующих полях каждого из изданий. Такой метод организации поиска характерен для фактографической модели.

К атрибутам изданий относят: название, автора (авторов), время создания, ISBN (индивидуальный номер издания по универсальной книжной классификации) и так далее. В последнее время набор атрибутов все чаще называют метаинформацией. Этот термин уже упоминался во второй главе, когда мы рассматривали содержимое заголовочной части HTML-издания. За рубежом делаются попытки стандартизации электронного описания для любого издания. В частности, имеются библиотечные стандарты, в том числе и отечественные, а также стандарты описания, существующие в книжной торговле. Ко второй группе средств относится полнотекстовый поиск и выборка изданий. Действительно, любая книга, в том числе и в электронном виде, представляет собой слабоструктурированный набор символов, организованных в слова, предложения, разделы, параграфы и главы. Для организации полнотекстового поиска необходимо вначале произвести индексацию изданий, составить для них так называемый полнотекстовый индекс. В простейшем случае он представляет собой список всех значащих слов в текстовой базе данных с указанием, в каких изданиях встречаются эти слова. Встречаются многоуровневые индексы, в которых на верхнем уровне расположен словарь или поисковый индекс слова. В нем каждому значащему слову соответствует указатель на расположенный на следующем уровне список местонахождений или индекс ссылок, в котором содержатся адрес издания и, иногда, позиция слова внутри документа.

Многие из читателей, вероятно, использовали полнотекстовый поиск, работая в сети Интернет с поисковыми серверами. В этом случае в специальное поле поиска вводится конструкция из некоторого количества слов или фраз, иногда связанных друг с другом знаками логических операций. Соответствующий механизм на сервере автоматически проверяет содержимое ссылок на документы, содержащихся в его базе данных и выдает результат поиска в виде списка подходящих или релевантных документов.

Можно сформулировать 4 основных отличия полнотекстовой выборки от атрибутивной:

✓ полнотекстовая выборка отвечает на запросы с меньшей точностью;

✓ она вероятностная, а не детерминированная;

✓ критерием правильности выборки является не точное совпадение, а лишь пригодность извлеченного из базы издания;

✓ время поиска и извлечения издания в большей степени зависит не от технических средств, а от качества формулирования запроса и скорости анализа пользователем пригодности извлеченных из базы изданий.

Нетрудно понять, что первой модели наилучшим образом соответствует атрибутивный поиск, а второй – полнотекстовый. Принципиальное отличие между этими двумя методами поиска состоит в том, что результат применения атрибутивного поиска детерминированный, в то время как полнотекстовый поиск следует характеризовать как вероятностный, т. е. его результат содержит набор документов, характеризуемых определенным уровнем релевантности или пригодности.

Исторически первыми использовались базы данных для хранения структурированной информации с жестким набором атрибутов. Затем возникла необходимость хранения документов, включая журналы и книги, которые представляют собой набор неструктурированной или почти неструктурированной информации. В последние годы возникла определенная тенденция к разметке или структурированию текстовых документов. Для этого созданы специальные языки, в частности, SGML (Standard Generalized Markup Language) и XML (Extensible Markup Language).

Атрибутивный поиск проще и быстрее, а также позволяет получить точный, а не вероятностный, результат. Для его реализации не требуется создавать полнотекстовый индекс, занимающий значительное дисковое пространство, а также сложные поисковые механизмы. Кстати, в последние годы даже в сети Интернет взят курс на поисковые системы, основанные на частичном использовании метаинформации, по крайней мере, в тех случаях, когда эта информация известна пользователю. Вводится и соответствующий стандарт на содержание атрибутов на каждой Web-странице для реализации такого поиска. Тем не менее, полнотекстовые базы и поиск пока еще достаточно широко используется в издательских информационных системах.

Известно несколько методов поиска в текстовых базах данных, на которых автору хотелось бы остановиться. Первой и наиболее простой моделью поиска является просмотр, т. е. процесс сходный с обычной работой с книгой. В этом случае из базы данных извлекается определенное электронное издание, и пользователь знакомится с его содержанием. Используя современные средства навигации, можно перемещаться по каталогу изданий, раскрывать нужные книги и просматривать их оглавления и аннотации. Для больших баз данных такой способ неэффективен и может использоваться только в сочетании с другими моделями.

Вариантом этой модели является связанное чтение, которое использует концепцию гипертекста и переходы по гиперссылкам внутри одного издания или даже между изданиями, включая рисунки, звуковые и видеофрагменты.

Чаще всего применяется Булевы модели поиска, использующие в качестве основы логические конструкции, т. е. слова или фразы (последние заключаются обычно в круглые скобки), объединенные знаками логических операций И (AND, &), ИЛИ (OR) и НЕ (NO). Входящие в конструкцию смысловые элементы, т. е. слова и фразы, если последние рассматриваются как единое целое, обычно называют термами. Если в результате запроса поисковая система выдала чрезмерно большой список документов, запрос можно попытаться усложнить, включив в него большее количество термов и операторов И, предполагающих одновременное наличие в документе базовых слов и фраз. Наоборот, если найдено небольшое количество пригодных (релевантных) документов, запрос можно упростить, исключив из него отдельные конструкции с оператором И (или добавив конструкции с оператором ИЛИ).

Специальное программное обеспечение может обеспечить автоматическую оценку степени полезности каждого из извлеченных изданий. Эта оценка делается на основе частоты, с которой встречаются в издании термы, используемые в запросе. Результаты обычно сортируются по степени релевантности. Такая модель поиска используется, в частности, на поисковом сервере Rambler.

Векторная модель поиска основана на представлении каждого отдельного издания некоторым вектором в N-мерном пространстве. Запрос также представляется в виде вектора. Степень полезности документа, определяется как его близость в указанном N-мерном пространстве к вектору запроса. Количественная оценка близости найденного документа к запросу выражается косинусом угла между этими векторами и изменяется в пределах от 0 до 1.

Векторная модель поиска обязательно подразумевает последовательные итерации. В начале поиска пользователь из всего множества выбранных изданий определяет некоторые как нужные, полезные для него. На основании этого выбора вырабатывается уточненное положение вектора запроса

Эффективность – главный критерий при определении применяемого метода полнотекстовой выборки. Эффективность поиска издания можно описать двумя характеристиками: точность и охват. Точность µ определяется отношением числа релевантных документов R к общему количеству документов в выборке N (µ = R/N). Охват ∑ характеризуется отношением числа релевантных документов в выборке R к общему числу релевантных документов в базе данных T (∑ = R/T).

В случае идеального поиска все выбранные документы полностью пригодны и исчерпывают список пригодных документов в базе данных, т. е. ∑ = 1 и µ = 1. Однако многочисленные исследования, выполненные различными специалистами, показали что точность и охват связаны друг с другом обратной зависимостью, а максимальное значение суммы µ + ∑ близко к 1,4. Сказанное иллюстрируется графиком, представленным на рис. 7.4.

Такой результат выглядит вполне осмысленным. Действительно, если мы хотим увеличить точность µ – мы должны как можно более точно сформулировать запрос, включив в него большое количество различных термов, связанных с помощью операторов И, чтобы исключить возможность попадания в результаты поиска непригодных документов. Однако, в этом случае общее количество выбранных изданий не может быть большим, точнее – оно будет малым. Естественно, что не все релевантные документы, содержащиеся в базе данных, попадут в число выбранных.

В последнем случае увеличение количества выбранных изданий неизбежно увеличит время обработки результатов поиска. Реально, если количество выбранных изданий составляет сотни значений, то время оценки их пригодности становится чрезмерно большим, в результате пользователь утомляется, внимание его рассеивается, что неизбежно приводит к неточностям и ошибкам.