The Ebook. Книга об электронных книгах
Шрифт:
«Частным репозиторием» можно назвать желание владельца файла выложить произведение в публичный доступ и при наступлении события «частная форма» преобразуется уже в совершенно иную, для которой «частные» юридические определения уже не применяются.
Оцифровка книг
Определение оцифровки, причём только бумажных книг, не совсем точное определение. Процесс предполагает носитель в качестве источника, а им не всегда является только бумага. В современном мире существует несколько типов носителей информации — бумажные книги, экран компьютера, графические
Более точное определение процесса «оцифровки книг» — это создание или использование готовой графической копии страницы в одном из соответствующих форматов. Например, TIFF, JPG, PDF, DJVU и PNG с последующим (не всегда обязательным) распознаванием текста и перевод результата в электронную форму для дальнейшего копирования, тиражирования, хранения и в том числе перевод первичной копии в другие цифровые форматы необходимого для использования типа.
Самый популярный способ оцифровки — перевод растрового изображения в цифровой формат книг. Среди форматов могут быть графические — PDF, DJVU, форматы для комиксов — CBZ, CBR, текстовые — TXT, FB2, EPUB, PDF, HTML, DOC и так далее. Как правило, графические форматы не являются масштабируемыми. Они сохраняют пропорции и размер исходной страницы вместе с содержимым. В них и довольно часто, для компактности сокращают пустые поля страницы, чтобы текстовое окно, как образ книги, лучше вписывался в экраны мобильных устройств.
Оцифровка книг — это ещё один возможный источник получения электронного контента для чтения.
Оцифровка книг применяется для различных целей. От личного использования до профессиональных нужд. Как хобби и вид заработка. Для наполнения библиотек и магазинов контентом. Довольно закономерное правило — чем больше контента продаётся или распространяется бесплатно, тем меньше используется оцифровка для создания электронного контента. Этот вид деятельности переходит в узкоспециализированное русло для увлечённых людей и профессионалов. В то же время, наполнение библиотек происходит путём обмена, а не создания новых цифровых копий.
Магазины и музейные архивы активно оцифровывают книги по нескольким причинам, основным из которых является недоступность цифровой копии у правообладателя, ограниченное количество или старинные книги, исходный материал создавался не цифровым набором.
Владельцы копий узкоспециализированной литературы не стремятся создавать для массового потребителя контент, источником которого являются редкие книги. В этом случае цифровая копия создаётся для изучения книг без ущерба их первичного носителя, не только со стороны читателя, но и для исключения разрушительного воздействия воздуха, света, различных газов, паразитов и так далее. Редкие цифровые копии книг и рукописей чаще всего находятся в рамках исторических архивов и библиотек.
Электронные книги, как файлы, создаются несколькими способами: прямая цифровая копия из подготовленной профессиональной или иной вёрстки, а также оцифровка бумажной книги или другого источника в электронную форму. Устаревшей формой оцифровки можно признать ручной набор текста и диктант.
Не всегда и везде оцифрованная книга должна и может содержать текст, который возможно впоследствии масштабировать и даже редактировать, в том числе применять конвертацию в другие текстовые форматы электронных книг. Оцифрованные книги могут быть факсимильной копией, то есть графически точно отражать вид бумажной страницы.
Текстовые книги получаются с помощью распознавания текста. Применяется метод OCR — оптическое распознавание символов (анг. optical character recognition). Страницы книги предварительно сканируются в графический формат, и впоследствии текст распознаётся с помощью специального программного обеспечения. Точность распознавания зависит от качества шрифта, контраста текста, наличия дефектов и графических иллюстраций. Финальное качество, в большинстве случаев, контролируется корректорами, которые сверяют текст между первоисточником и цифровой копией.
(Довольно много разногласий между специалистами OCR вызывает необходимость или возможность сохранения опечаток в цифровой копии, которые имели место в бумажной книге).
Подготовленная цифровая книга трансформируется в один из текстовых форматов. Впоследствии можно преобразовать готовую книгу в другие популярные форматы, с возможной потерей вёрстки, так как не все из них поддерживают совместимый набор разметки текста и иллюстраций. Первично выбранный формат зависит от предпочтений оцифровщика и использования технологической цепочки для последующей трансформации. Чаще выбирают форматы с развитой структурой разметки.
Графические книги создаются за счёт точного образа страницы или факсимильной копии с помощью оптического прибора, чаще с помощью сканера, реже с помощью фотоаппарата. Метод выбирается за счёт определения скорости преобразования, и вероятного вреда, который может быть нанесён первоисточнику внешним освещением, нагревом или физическими изломами оригинала.
Каждая страница отсканированного материала — это графический файл JPEG, TIFF или любой другой, в том числе контейнеры, которыми могут быть PDF и DJVU. Выбор формата зависит от дальнейшего преобразования множества файлов в один документ или наоборот, когда из одного файла создаётся множество промежуточных, для координации профессиональной обработки.
Сканеры существуют нескольких типов — отличаются скоростью работы, встроенными средствами распознавания, конструкцией и конечно размерами. Немаловажная разница заключается в цене решения при эксплуатации того или иного типа сканера и сложности управления процессом.
Малораспространённый тип — это ручные компактные сканеры, которые не точны, имеют небольшую скорость работы, за один раз охватывают небольшую зону изображения и не имеют встроенных механизмов автоматизации процесса. Но за счёт низкой стоимости, малого веса и компактности — применяются до сих пор. Они удобны для отдельных рукописей, страниц или только для сканирования подписи автора.
Другие типы сканеров являются стационарными приборами. Они подразделяются между собой на типовые, специализированные и профессиональные.
«Типовые» — они же массовый продукт, который существует в продаже, имеют компактные формы, тратят в рабочем режиме на одну страницу несколько секунд или минут. Точность и качество цифровой копии зависит в основном от прилегания исходной страницы на поверхности сканера. Для отдельных листов, существуют автоматические лотки для подачи бумаги, что увеличивает скорость работы, так как фактически не тратится время на смену листов первоисточника.