Решение для распознавания документов.
FormXtra Form Definition Studio (Настройка)
Инструмент для создания гибких описаний документа, с помощью которого указывают какую информацию извлекать из документа, как ее распознать, и каким способом экспортировать полученные данные.
-
Регистрация форм
Этот шаг позволяет ввести структуру документа (пакет, пакеты документов, листы документов) и установить шаблоны, которые будут выполнять роль классификации файлов изображений. При создании шаблонов указывают неизменяемый графический элемент - зону регистрации, которая присутствует и остается неизменной на всех формах (любой тип текста или логотипа). Объяснение умовою є тестування, при якоком користуач, выбираю випадкови файлы изображают, как відповідают визначеному шаблону, можно проанализивати кілкість форм, какі пройшли рестрацію, тобто идеально відповідают шаблону. Если не все файлы прописаны, они заменят шаблон и повторят проверку. Таким образом выбирается лучший шаблон, регистрирующий максимальное количество файлов.
-
Определение полей
Следующим шагом после завершения регистрации будет определение расположения полей, где находится интересующая пользователя информация и тех, которые будут принимать участие в распознавании. Этот шаг также включает в себя определение различных параметров созданного вами поля (его тип, распознавание языка, стиль письма, степень очистки и т. д.). Качество распознавания во многом зависит от правильности и точности установки любого из этих параметров.По умолчанию любое созданное поле будет распознано собственным движком (Parascript OCR, Parascript ICR). Помимо этого есть возможность указать встроенный движок стороннего производителя (ABBYY FineReader Engine, CuneiForm).
-
Распознавание полей
На этой стадии происходит распознавание полей, заданных на предыдущем шаге. Для получения точной оценки результатов необходимо задать эталонные значения для полей, принимавших участие в распознавании. Form Definition Studio имеет удобный редактор для быстрого наполнения полей эталонными значениями с их последующим хранением в файл.После ввода эталонных значений, пользователю будет доступна разная статистическая информация (количество распознанных и нераспознанных полей, количество достоверно распознанных и неуверенно распознанных полей, количество ошибок и др.). На основе этой информации можно сделать вывод о допустимом проценте ошибок и качестве распознавания. Для увеличения точности полученного результата допустимо изменение предварительно заданных параметров (координаты поля, степень очистки, стиль написания и др.), после чего вся статистика автоматически пересчитывается и появляется возможность ее проанализировать.
-
Скрипты
С помощью скриптов (C#, Visual Basic.Net) можно значительно расширить и дополнить функционал обработки документов. Решение позволяет использовать все стандартные функции .Net и личные классы. Для написания скриптов не требуется установка Visual Studio, все действия выполняются в Form Definition Studio. Программист имеет доступ ко всем процессам описания форм, распознавания и вывода результатов.Приведем несколько примеров использования скриптов:
- Форма содержит таблицу. Один из столбцов таблицы имеет сквозную нумерацию. Программист может получить результаты распознавания нескольких ячеек таблицы идущих подряд, затем, сообразив закономерность, принудительно установить значение для всех ячеек столбца.
- Документ содержит данные контрагента (название, индивидуальный номер, адрес, телефон и др.). Когда будет распознан индивидуальный номер, можно обратиться к внешнему источнику данных (например, базе данных) и получить другие данные контрагента для дальнейшего использования.
-
Настройка исходящих данных
Form Definition Studio содержит все необходимые инструменты для формирования и настройки исходных данных. Существует возможность конкретизировать структуру данных (задать необходимые поля для экспорта, разместить их в нужном порядке, обусловить их размер, задать значение по умолчанию). Пользователь может выполнить распознавание тестовой партии документов и получить результирующие данные для просмотра согласно заданной структуре. Исходные данные могут быть экспортированы в виде текстовых файлов или таблиц баз данных (txt, xml, базы данных через OLEDBODBC, SharePoint).
FormXtra Administrator (Обработка)
FormXtra Administrator дает пользователю полный контроль над всеми процессами обработки. Администратор имеет возможность производить мониторинг работы системы на общем и детальном уровнях. Программа позволяет:

-
Получить упрощенный анализ в виде графических диаграмм
В режиме реального времени на экран администратора выводится полная статистика о состоянии обрабатываемых документов — от их сканирования и распознавания до повторной проверки аудитором и выводом в базу данных.
-
Получить полный, развернутый анализ
Программа обеспечивает получение всесторонней статистической информации о состоянии процесса обработки: просмотр результатов идентификации типа документа, просмотр предварительных результатов распознавания (без учета данных, отправленных системой на верификацию), перегляд реальних результатів розпізнавання, звіт про продуктивність та якість роботи кожного аудитора.
-
Управлять процессом обработки распознавания документов
Помимо функций анализа и контроля FormXtra Administrator позволяет администратору управлять процессами обработки. Администратор может снять с обработки любой пакет документов, имеющий плохое качество. После получения более качественных сканированных материалов администратор может снова добавить пакет в обработку.
Capture (Обработка)
-
Используя сканер
Программа располагает широкими возможностями для удобной и продуктивной работы. В зависимости от используемого типа сканера можно сканировать как по одному листу, так и пакет документов. Наиболее интересные возможности:
- обработка исключительных ситуаций (остановить сканирование, удалить файлы с дефектами, повторить сканирование);
- управление настройками сканирования (разрешение, тип сканирования, режим, контрастность, яркость, сжатие и др.);
- использование предопределенного разделителя задач (письмо с некоторым штрихкодом) при обработке разносторонних пакетов документов, если этого требует задача.
В настоящее время возможно подключение сканеров с интерфейсом ISIS.
-
Путем импорта из папки компьютера
В таком варианте пользователь вправе использовать понравившийся ему софт для задач использовать понравившийся ему софт для задач извлечения изображений из бумажных документов. Интерфейс обмена (ISIS, TWAIN) не имеет существенной роли, так как в большинстве, программа по умолчанию, идущая в комплекте поставки со сканером, имеет нужный драйвер.
-
Программно
Используя платформу .Net и классы, идущие в комплекте с решением, можно решать любые задачи импорта изображений. Это может быть работа с протоколами FTP (POP3) или загрузка изображений «на лету» из горячей папки. Также следует упомянуть о широком наборе методов для коррекции и преобразования файлов: устранение углового перекоса и шума, вращения и т.д. (Deskew, Despeckle, Rotate).
Для работы с файлами изображений удобен инструментарий с возможностями для их просмотра и коррекции. Следует упомянуть и о подробной статистике при работе с Capture, благодаря которой пользователю доступна информация об отправленных, передаваемых и обрабатываемых файлах. Также дополнительно ведется логирование по всем действиям работы программы.
TotalKeying (Обработка)
После того, как документ был классифицирован и распознан, некоторые поля требуют дополнительной проверки – верификации. Это связано с тем, что печатный материал или сканированная копия могут иметь плохое качество. В результате система не может самостоятельно принять решение и сомневается в результате, поэтому необходимо участие человека (аудитора).
Программа TotalKeying отображает аудитору спорные моменты в документе, а он в свою очередь должен подтвердить или опровергнуть гипотезу системы о результатах распознавания поля. Основные причины попадания данных на верификацию:
-
Низкий процент распознавания
На предварительном этапе работы с помощью Form Definition Studio для каждого поля задают надлежащий уровень надежности распознавания. Если по каким-либо причинам уровень надежности не достигнут, то поле автоматически попадает на верификацию.
-
Программная валидация
Скрипты дополняют и расширяют функционал обработки документов, их создают на предварительном этапе работы с помощью Form Definition Studio . В качестве примера можно рассмотреть квитанцию, на которой фигурирует рукописный адрес. Номера домов или квартир практически никогда не имеют четырехзначных значений. Если система распознала на должном уровне подобное поле, то не будет лишним перепроверить эти данные. Скрипт (бизнес-правило) принудительно отошлет поле на проверку.
Для удобной работы аудитора программа TotalKeying имеет разные опции и настройки. Пользователь может масштабировать изображение, настраивать цвет различных элементов (фон, поле, маркер) и т.д.