Интернет-журнал Домашняя лаборатория, 2008 №3, Журнал «Домашняя лаборатория»

Интернет-журнал "Домашняя лаборатория", 2008 №3

на обложку

Журнал «Домашняя лаборатория»

Шрифт:

Вокруг каждой буквы и на них самих, появились пикселы других цветов, что-то утрачено, что-то добавлено, и оригинал уже не восстановишь в точности. Потери в jpg незаметны на фотографиях, где присутствует смешение цветов, полос, линий и т. д., но когда речь идет о тексте или одноцветных линиях, то артефакты становятся очень заметны. Удалить их без ухудшения изображения не так просто или вообще невозможно, особенно когда jpg изначально имеет низкое разрешение. Очевидно, что jpg с наибольшим сжатием дает наименьший размер, поэтому при сканировании стараются получить приемлемые размеры конечных файлов и даже достигают этого. Но только ценой катастрофического

падения качества, вдобавок, артефакты, которые не несут никакой информации, начинают бесполезно увеличивать размер файла. Получается парадоксальный результат — обмен полезной информации на вредный шум. Для черно-белых текстов ситуация будет еще хуже. Поэтому, если информация на бумаге заключена именно в тексте и графике, а не в серой/цветной фотографии, то jpg и аналогичные форматы с потерями при кодировании являются наихудшим вариантом. Уйдет время на сканирование, а результат окажется плачевным для будущих читателей.

Ничуть не лучше дело обстоит при использовании программы FineReader, когда делается попытка заменить трудный и нудный процесс проверки текста после OCR на представление изображения страницы в формате pdf с наложенным текстовым слоем. Такой метод существует и успешно используется, как для pdf, так для djvu, но с небольшими отличиями. Со сканера невозможно получить векторную графику и векторный текст, поскольку все сканеры имеют такой параметр, как dpi. Следовательно, изображение всегда состоит из точек, и при упаковке его в оболочку pdf, а это легко делается, оно не становится от этого векторным, продолжая сохранять все недостатки растрового оригинала. Всего лишь меняется расширение файла на pdf.

Мне могут возразить, что есть сканеры, у которых нет промежуточного формата, а после сканирования сразу получается pdf файл. Все так, просто процесс упаковки растра в pdf контейнер скрыт в используемом софте, но это не значит, что такие сканеры действительно могут сканировать в вектор.

Итак, что происходит во время и после сканирования в FineReader, если конечной целью выбрать формат pdf? Пока идет сканирование, независимо от установленных опций, будет происходить автоматическое выравнивание перекошенных страниц, причем реализация этого процесса оставляет желать лучшего. По наблюдениям, опубликованным на одном из форумов, автоматическое исправление наклона приводит к ошибкам в распознавании типа фонта, обычный фонт превращается в наклонный, поскольку в буквах несимметрично сдвигаются пиксели и верхняя часть буквы сдвинется вправо, а нижняя останется на месте. Помимо своего желания можно получить курсив там, где его не было.

Черными точками отмечены искажения после загрузки изображения в FineReader:

После выравнивания в FR:

Это не самое страшное, а вот когда сканирование и распознавание страниц закончено, а исходные параметры сканирования (яркость и контрастность) не были правильно установлены, то на выходе получается серое изображение с нечеткими черными буквами. Затем выбираются параметры сохранения в pdf, вот скриншот этого меню:

Главная "мина" заложена в опции "Формат": если будет стоять "Авто" или любой из jpg вариантов, то одним нажатием кнопки "ОК" получается "ни рыба, ни мясо". Этот "продукт" будет некачественным, распухшим и неприятного серого цвета. Логику такого выбора понять нетрудно — потрачено время на сканирование нужной и интересной книги, текст вроде бы распознан, а изображение…, да ладно, что-то будет видно в любом случае. Действует сомнительный принцип: если хочешь файл поменьше — жми в jpg, а чтобы все могли прочитать и текст скопировать, тогда пакуй в pdf и будет замечательно! Увы, но получается далеко не так замечательно, как может показаться на первый взгляд. Под "ни рыба, ни мясо" подразумевается отсутствие проверки ошибок в тексте и плохое качество изображения. Достоверность копируемого текста ниже всякой критики, а с изображением в jpg уже ничего не сделаешь, в FineReader нет опции выбора степени компрессии jpg, насколько сожмутся изображения, известно только Богу и разработчикам.

А жмутся jpg файлы при упаковке в pdf контейнер весьма солидно, артефакты видны невооруженным глазом и даже без увеличения. Такой pdf файл относится к категории "видит око, да зуб неймет". Читать трудно, глаз привык к черным буквам на белом фоне, а уже упомянутые артефакты удовольствия не добавляют. Копировать текст вроде бы можно, да что толку, если там коктейль из русского и латинского алфавита, густо приправленный ошибками? И сделать ничего нельзя без затрат времени, причем его требуется куда больше, чем на качественное сканирование. Любопытно, что такой pdf файл получается чудовищного размера: многие десятки, а то и сотни мегабайт. Стоило ли так делать, если с какой стороны ни подойди, везде плохо, начиная от качества, кончая размером?

Вам такое нравится? Мне не очень! Если это "черно-белое" то, что же такое "серое"?

Разумнее было бы выбрать в "Формате сохранения" пункт "Только текст и картинки", как это показано на скриншоте выше. Тогда результат будет несравненно лучше предыдущего, но на глаза сразу полезут ошибки распознавания, которые нужно исправлять, а ведь не хочется, лень-матушка прежде нас родилась. Зачем стараться, когда есть хитрая опция, которая то появляется, то исчезает в FineReader? Речь идет о замене неуверенно распознанных слов их графическими изображениями:

Исходные предпосылки разработчиков были, разумеется, благими. Действительно, в распознаваемом тексте могут встретиться самые различные слова и знаки, для которых нет аналогов ни в одном фонте, а могут оказаться слова на таком языке, какого нет даже в богатом наборе самого FineReader. В таких случаях эта опция будет полезна, но при распознавании обычных текстов FineReader старательно спихивает на нее все свои косяки. При малейшем сомнении в слове, оно сохраняется в виде графической вставки. Интересно другое, на этой вставке есть слой текста и обычно слово распознано совершенно правильно. Какой хитрый алгоритм обработки! Слово распознается правильно, но, тем не менее, вставляется его графическое изображение, причем в том же неподходящем jpg.

Такие вставки совершенно напрасно увеличивают размер файла и портят весь его вид. Когда этих графических вставок многие десятки, сотни и даже тысячи на всю книгу, а исходный скан был грязно-серого цвета, уже не скажешь "Приятно глазу!". Что хорошего, когда среди нормального текста то там, то тут, наляпаны грязные пятна с отдельными словами, зачастую с другим фонтом. Простых способов исправить положение просто не существует. Вот не самый худший пример:

Обратите внимание на серую полосу перед буквой "И" в слове "Информация", по идее, ее вообще не должно было быть. Как наглядно показано, применен формат jpg, со всеми вытекающими последствиями и неизменными артефактами.

Но не все так мрачно, как может показаться на первый взгляд. По поводу установок сканера читайте в начале статьи и еще раз повторите правило: черные буквы должны остаться черными, белый фон должен быть белым, а не грязносерым, серые фотографии должны быть серыми. Про цвет речи вообще нет, хотя бы по той причине, что сканирование альбомов с художественными фотографиями в круг задач сканировщиков обычно не входит. Это достаточно редкое и нетривиальное дело, а малоцветные изображения не представляют проблемы, обычно 256 цветов хватает за глаза.