Интернет-журнал "Домашняя лаборатория", 2007 №9
Шрифт:
• Ограниченность размера; иногда — невозможность качественно отсканировать большой лист по частям.
Теперь подробнее обо всех упомянутых особенностях.
Фотоаппарат
Скорость сканирования полностью настроенным фотоаппаратом ограничивается в основном скоростью, с которой пользователь может сменять оригиналы перед объективом и жать на кнопку съёмки. То, что можно пристроиться в тихом уголке библиотеки и там работать сколько душе угодно — экспериментальный факт. Но проблемы начинаются, если потребовать хотя бы минимального качества получаемых документов. Печать на современных принтерах идёт с
в ширину
3000 пикселей / 300 точек на дюйм * 2,54 см на дюйм = 25,4 см,
и в высоту
2000 пикселей / 300 точек на дюйм * 2,54 см на дюйм = 16,9 см.
Теперь немного стандартов: лист формата А4 имеет размеры 297х210 мм, размер разворотов самых распространённых форматов книг — примерно такой же или чуть меньше: 19,5 см в высоту. В принципе, остаётся ещё один вариант, не предъявляющий столь высоких требований к разрешению — распознавание (OCR), но и тут есть подводные камни: во-первых, распознавание применимо лишь к книгам, содержащим текст безо всяких усложнений: химических и математических формул, иллюстраций или фотографий, во-вторых, нет никаких гарантий отсутствия искажения текста при распознавании на столь низком разрешении. Даже часто практикуемая последующая вычитка текста, хотя и снижает количество ошибок, не помогает избавиться от них полностью (или хотя бы до уровня ГОСТа — 1 опечатка на печатный лист, т. е. на 40000 знаков).
Если обеспечивать достойное качество изображения, то получается, что нужно фотографировать книги постранично или даже кусками страниц — в случае крупноформатных изданий. Про прочие оригиналы уже и говорить не приходится.
Однако после получения изображений кусками их необходимо склеивать. Для панорамных пейзажных снимков существуют программы, осуществляющие автоматическую склейку изображений, аналогичные программные продукты существуют также для сканированных изображений, но они специфичны и в основном представляют собой военные или технические, не бесплатные, разработки для получения полных карт или чертежей. Во всяком случае, опыт их использования в качестве генераторов полных изображений у автора отсутствует.
Второй способ сшивки — это знаменитый Фотошоп или его бесплатный аналог GIMP (Гимп). Удобно, но не автоматизируемо, причём никак.
Дополнительная проблема — для получения частичных изображений необходимо двигать оригинал или фотоаппарат. В любом случае изменяются условия: либо освещённость поверхности, либо угол зрения. Из-за этого, а также стандартной для фотоаппаратов бочкообразной дисторсии, склейка изображений не позволяет добиться их равномерности. Теоретически, конечно, можно соорудить специальный штатив с источниками подсветки для уничтожения этих искажений, но система будет монструозной и к использованию потому не пригодной (разве что в домашних условиях, а при этом теряется основа удобства фотоаппарата — его мобильность).
Далее — "шевелёнка". Держащие фотоаппарат руки дрожат, что приводит к размазыванию изображения, причём известно эмпирическое правило для его устранения: выдержка не должна превышать обратного фокусного расстояния. При неидеальных условиях съёмки, что в библиотеке обычно, выдержка будет относительно
Из этого вывод: штатив при съёмках очень желателен. Нужны также два источника подсветки — справа и слева — для устранения теней на развороте. Но если последующее распознавание текста не требуется, можно обойтись и ручной съёмкой с данным освещением.
Качество съёмки будет наилучшим при специальных настройках фотоаппарата. Желательно, чтобы фотоаппарат имел возможность сохранения данных с матрицы без сжатия, в так называемый RAW-формат. Для выдерживания постоянного характера снимков для их последующей пакетной обработки необходимо выдерживать одинаковую диафрагму, фокусировку и выдержку. Отнюдь не все фотоаппараты позволяют зафиксировать сразу все эти параметры, кроме того, обычно их необходимо фиксировать вручную, а чтобы их правильно подобрать, надо быть умелым фотографом и знать свой фотоаппарат.
При этом дополнительные сложности вызывает объём сохраняемых RAW-файлов. Они способны полностью исчерпать память фотоаппарата за какой-нибудь десяток-другой снимков. В самом деле, с матрицы 6-мегапиксельного аппарата обычно снимается порядка 6x4=24 Мб данных за раз, а существенного сжатия без потери качества фотоаппараты делать не умеют (да это и не нужно при обычной фотосъёмке). Из-за этого либо фотоаппарат необходимо держать постоянно подключённым к компьютеру, сбрасывая снимки по мере их возникновения (но для этого нужно специфическое программное обеспечение), либо закупаться очень большим количеством дополнительной памяти — не менее 1 Gb.
Примечание: в тексте говорится о теоретических проблемах при копировании с помощью фотоаппарата, однако на практике (переведены в djvu сотни книг) даже 3 мегапиксельный фотоаппарат делает djvu разворота книги приемлемого качества. Очевидно, это связано с особенность техники сжатия, текст состоит из мини-изображений букв. Поскольку почти все буквы "а" искажены одинаково, то и глаз человека на этом не спотыкается. Кроме того принципиально важен режим съемки с "ручными" установками диафрагмы и выдержки (маленькая диафрагма + большая выдержка). Большинство фотоаппаратов обеспечивают его только при дистанционном управлении со стороны компьютера. В случае работы на "автомате" качество изображения действительно не выдерживает никакой критики.
Сканер
Основные достоинства сканеров — равномерность подсветки и цветопередачи — в хороших моделях, естественно. Также упомянем невысокую цену по сравнению с фотоаппаратами. С другой стороны, сканер значительно больше фотоаппарата, его можно пронести в библиотеку только в сумке, а как в библиотеках относятся к сумкам — сами понимаете. Более того, покупка CIS-сканера — он и дёшев, и более компактен — приводит к невозможности сканирования толстых книг — в районе корешка текст приподнимается, a CIS-технология имеет очень низкую глубину резкости.
Книжные сканеры
К книжным сканерам относятся узкоспециализированные сканеры, предназначенные для максимально быстрого и/или удобного получения растровых копий страниц книги. Условно можно выделить три типа таких сканеров:
• для домашнего пользования (например, Plustek OpticBook 3600), сконструированные для облегчения процесса именно книжного сканирования, однако в основе своей имеющие обычный планшетный сканер;
• полуавтоматические (например, Atiz BookDrive DIY), когда страницы книги по-прежнему переворачивают вручную;