Секреты сканирования на ПК
Шрифт:
Для распознавания документов специального вида
Например, страница содержит перечень артикулов, состоящий из цифр и нескольких букв. Вы имеете возможность создать новый язык, включив в него минимально необходимый набор символов, и использовать его для распознавания данного типа документов.
Документ использует только заглавные буквы английского языка
В этом случае для повышения качества распознавания следует исключить из распознавания символы, которые заведомо не
Когда необходимо создавать группу языков? В случае, если вы часто используете какую-нибудь комбинацию языков.
Создать язык или группу языков можно из диалогового окна Редактор языков (доступ: Сервис к Редактор языков).
Создание нового языка
Из меню Сервис выберите команду Редактор языков…
Нажмите на кнопку Новый. В раскрывшемся диалоговом окне активизируйте переключатель Создать копию языка и выберите язык, на основе которого вы создаете новый.
Перед вами откроется диалоговое окно Свойства языка.
В процессе создания нового языка необходимо задать следующие параметры (все параметры задаются в диалоговом окне Свойства языка):
• Имя нового языка.
• В поле Алфавит языка указан алфавит языка, на основе которого вы создаете новый язык. В случае, если требуется, отредактируйте алфавит.
• Словарь, который будет использоваться системой при распознавании и проверке распознанного текста. Возможны следующие варианты:
• Нет (не подключать словарь к языку).
• Встроенный словарь (используется словарь, поставляемый с программой).
• Пользовательский словарь.
Для того, чтобы наполнить словарь или подключить старый пользовательский словарь или текстовый файл в Windows-кодировке (слова должны быть разделены пробелами или другими символам, не включенными в алфавит), просто нажмите на кнопку Редактировать.
Важно: Словарные слова пользовательского языка считаются правильными, если в тексте они встретились с той капитализацией, в которой они заданы в словаре, а также в каком-либо стандартном виде: всеми маленькими, всеми большими буквами или с большой буквы.
• Вид слова в словаре. Допустимые варианты написания слова в тексте:
• abc abc, Abe, ABC
• Abc abc, Abc, ABC
• ABC abc, Abc, ABC
• aBc aBc, abc, Abc, ABC
• Регулярное выражение (задается грамматика нового языка).
Важно: Нажав в диалоговом окне Свойства языков на кнопку Дополнительно, вы имеете возможность указать дополнительные свойства нового языка, например, игнорируемые внутри слова символы или исключенные из распознавания символы.
Как создать новую группу языка
Важно: Эта возможность имеется только в версии FineReader Office.
В случае,
Важно: Вы имеете возможность указать комбинацию языков непосредственно в списке языков на панели Стандартная. Для этого выберите в списке строку Выбор нескольких языков. В раскрывшемся диалоговом окне Язык распознаваемого текста активизируйте необходимые языки.
Как создать группу языков для распознавания
Из меню Сервис выберите команду Редактор языков и просто нажмите на кнопку Новый. В раскрывшемся диалоговом окне выберите команду Создать новую группу.
Перед вами откроется диалоговое окно Свойства группы языков. Здесь вам необходимо задать для новой группы языков (все параметры устанавливаются в диалоговом окне Свойства группы) Имя группы и Подключенные языки.
Важно: Вы имеете возможность указать символы, которые заведомо не встречаются в распознаваемом документе. Указание таких символов может существенно увеличить скорость и надежность распознавания. Для этого в диалоговом окне Свойства группы языков просто нажмите на кнопку Дополнительно и в диалоговом окне Дополнительные свойства новой группы активизируйте соответствующие символы.
Глава 34.
Как проверить и отредактировать распознанный текст
После завершения распознавания результат появляется в диалоговом окне Текст. Диалоговое окно Текст — это встроенный редактор программы FineReader; в нем вы имеете возможность проверить результаты распознавания и скорректировать распознанный текст.
Одна из возможностей текстового редактора FineReader — это встроенная проверка орфографии.
Система встроенной проверки орфографии дает возможность:
• Находить неуверенно распознанные слова (слова, в которых имеется неуверенно распознанные символы).
• Находить орфографические ошибки (неправильно написанные слова).
• Добавлять неизвестные системе FineReader слова в словарь для того, чтобы они распознавались уверенно.
Неуверенно распознанные символы и слова, которые отсутствуют в словаре, выделяются различными цветами. По умолчанию для выделения неуверенно распознанных символов используется голубой, для несловарных слов — розовый. Для того, чтобы изменить цвета на закладке Вид (доступ: Сервис к Опции) в поле Объект выберите команду Неуверенно распознанный символ (Несловарное слово) и в поле Цвет — цвет подсветки.