Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
Шрифт:
Из личного опыта:
Поработав с несколькими десятками книг, я пришел к выводу, что нумерацию файлов со сканами лучше всего начинать с нуля (например, Scan_000.TIF). Дело в том. что нумерация страниц в книгах обычно идет по схеме: Форзац =› Страница 1 (как правило, без номера) =› Страница 2 (данные типографии) =› Прочие страницы. Если сканировать книгу разворотами, то при нумерации с нуля номер каждого файла будет в точности равен номеру четной страницы, разделенному на 2, то есть:
1. Разворот 1 (Форзац и страница номер 1) – файл с
2. Разворот 2 (страницы 2 и 3) – файл с именем Scan_001. TIF;
3. Разворот 3 (страницы 4 и 5) – файл с именем Scan 002. TIF;
4. Итак далее…
Как правило, сканы именует сама программа сканирования, когда включен ее пакетный режим. Тогда заботиться об именах вообще не нужно. Однако у меня автоматическое именование работает (причем плохо) – только когда включен модуль автоматического листового сканирования ScanJet ADF. Поэтому я стараюсь давать своим файлам вручную простейшие цифровые имена, набивая их на нумпаде (заодно руки отдыхают от постоянного нажатия Ctrl+S).
Облегчить себе работу при сканировании – максимально насущная задача.
Если сканирование каждого отдельного разворота/листа включается клавишами (например теми же Ctrl+S) – нет проблем. Просто не меняя параметров области сканирования – жмете клавиши еще раз, набираете (или не набираете, если повезло с программой) имя очередного файла – и ждете окончания процесса. Если же без нажатия кнопки мыши не обойтись – ставите курсор на кнопку включения сканирования, и по окончании прохода очередной страницы – щелкаете пальцем по мышке, не сдвигая ее. При этом дожидаться, пока головка сканера вернется в исходное положение – никак не обязательно! Это только замедлит работу.
Описанным способом, в зависимости от быстродействия сканера, на один разворот уходит в среднем 18-25 секунд. То есть, при небольшом навыке можно выйти на «производительность ударного труда» порядка 160-200 разворотов (360-400 страниц) в час. Это значит, что в среднем за пару часов вы способны управиться даже с самыми толстыми томами! Немного усидчивости – и вуаля.
Маленькие хитрости
Крайне желательно, чтобы программа сканирования имела обновляемые пресеты установок области и параметров сканирования. Тогда, не закончив вечером работу над очередным томом, можно сохранить установки сканера, а потом – просто загрузить их.
В целом, чем проще будет для вас процесс сканирования – тем лучше. Главное для получения хорошего результата – следовать самым простым описанным правилам – получать выходной файл в формате несжатого TIFF, с разрешением 300dpi. Ну, и, само собой разумеется, в готовых файлах вы сами должны быть способны, не напрягаясь, прочитать текст.
Шаг 2. Пакетная обработка
После сканирования полученные файлы содержат страницы книги, иногда в довольно неприятном виде, вроде такого:
Смещенные и повернутые относительно друг друга страницы, низкий контраст, нечеткости печати во всей красе, затемненная область у корешка и полей – там, где книга неплотно прилегала к стеклу сканера. У такой страницы в неизмененном виде – мало шансов быть распознанной без ошибок, и тем более она не будет иметь никакого «товарного вида» после сжатия и упаковки в DjVu или PDF.
Устранить все дефекты и повысить качество распознавания текста – поможет пакетная обработка.
2.1 ScanKromsator V5.92
Салютуем альтруизму разработчиков-добровольцев!
Программа ScanKromsator 5.92(автор – уважаемый камрад bolega) – объективно лучший на данный момент процессор пакетной обработки изображений, специально «заточенный» под книгосканирование. Скачать программу всегда можно здесь: http://www.djvu-soft.narod.m/soft/.
Программа ScanKromsator– мощный инструмент для подготовки книжных сканов. Она автоматически и наилучшим образом выполняет операции разбиения по страницам ( Split), углового выравнивания ( Deskew), обрезки переплетов и полей страниц. Однако, потратив несколько минут на расстановку опций и проверку страниц – можно получать всегда отличные легко распознаваемые сканы с минимальными (только не для компьютера) усилиями. Кроме того, программа может сохранять сделанные настройки в виде сведений о заданиях ( Tasks). Это позволяет при работе с большими книгами не бояться задать неправильные установки после перерыва в работе.
Первый шаг при работе с Кромсатором – командой File=›Open Images…вызвать диалог открытия файлов с изображениями, и в нем выбрать ранее подготовленные сканы:
В диалоге открытия присутствуют списки, влияющие на открытие многостраничных TIFF-файлов (некоторые программы сканирования позволяют сохранить несколько сканов в один TIFF-файл), и сортировку файлов после сформирования списка. Опцию « Sort Smart» («Умная» сортировка) стоит держать включенной всегда, и не отказываться от сортировки, так как обычная техника выбора файлов в Windows с помощью мыши и клавиши Shift– меняет местами первый и последний выбранные файлы в списке. Для того чтобы выбрать файлы в любом диалоге Windows в правильном порядке, нужно:
• Выделить щелчком мыши последний файл из выбираемых:
• Нажать клавишу Shift:
• Щелкнуть на первом из выбираемых файлов.
Открытие сканов занимает, в зависимости от быстродействия компьютера – от нескольких секунд до примерно полуминуты. Когда изображения открыты, можно просмотреть их в вертикальном графическом списке файлов, а имена сканов – перечисляются в левом верхнем углу окна. В списке имен наличие зеленой галочки рядом с именем файла – означает, что файл готов к финальной обработке (прошел стадию автоматической установки границ). В случаях, когда в файл вносятся изменения, и он требует повторной обработки, его имя выделяется полужирным шрифтом.
2.2 Препроцессинг и расстановка границ
Каждая страница, обрабатываемая Кромсатором, перед основной обработкой проходит препроцессинг – первичную расстановку границ. При этом программа пытается определить положение корешка (при сканировании разворотов), обреза книги и полей страницы. Запускается препроцессинг командой Draft Kromsateменю Edit, или одноименной кнопкой (на кнопке – рисунок с ножницами) инструментальной панели.