FormXtra Capture. Опис

Рішення для розпізнавання документів.Опис


FormXtra Form Definition Studio (Налаштування)

Інструмент для створення гнучких описів документа, за допомогою якого вказують яку інформацію діставати із документа, як її розпізнати, та яким способом експортувати отримані дані.Етапи роботи програми:

  • Реєстрація форм

    Цей етап дозволяє задати структуру документів (пакет, документи пакету, листі документа) та встановити шаблони, які будуть виконувати роль класифікації файлів зображень. При завданні шаблонів вказують незмінний графічний елемент - зону реєстрації, яка присутня та залишається постійною на усіх формах (будь-який тип тексту або логотип). Обов’язковою умовою є тестування, при якому користувач, вибираючи випадкові файли зображень, які відповідають визначеному шаблону, може проаналізувати кількість форм, які пройшли реєстрацію, тобто ідеально відповідають шаблону. У випадку, коли не всі файли проходять реєстрацію, проводять заміну шаблона та повторюють тестування. Таким чином, підбирається найкращий шаблон, який реєструє максимальну кількість файлів.

  • Визначення полів

    Наступним кроком після завершення реєстрації буде визначення місця положення полів , тих де знаходиться інформація, яка цікавить користувача, та тих, які будуть приймати участь в розпізнаванні. Цей крок включає в себе ще й визначення різних параметрів поля яке створене (його тип, мова розпізнавання, стиль написання, степень очистки та ін.). Якість розпізнавання в більшій мірі залежить від коректності та точності встановлення будь-якого з цих параметрів.
    За замовчуванням, будь-яке створене поле буде розпізнаватися за допомогою власного движка (Parascript OCR, Parascript ICR). В доповнення до цього існує можливість задавати вбудований движок стороннього виробника (ABBYY FineReader Engine, CuneiForm).Зазвичай, це необхідно у випадках, коли витягується особливо важлива інформація або існують високі вимоги до якості розпізнавання.

  • Розпізнавання полів

    На цій стадії відбувається розпізнавання полів, які були задані на попередньому кроці. Для отримання точної оцінки результатів, необхідно задати еталонні значення для полів, які приймали участь в розпізнаванні. Form Definition Studio має зручний редактор для швидкого наповнення полів еталонними значеннями, з їх подальшим зберіганням до файлу.
    Після вводу еталонних значень, користувачеві буде доступна різна статистична інформація (кількість розпізнаних та нерозпізнаних полів, кількість достовірно розпізнаних та невпевнено розпізнаних полів, кількість помилок та ін.). На основі цієї інформації можна зробити висновок про допустимий відсоток помилок та якості розпізнавання. Для збільшення точності отриманого результата допустимо змінення попередньо заданих параметрів (координати поля, степень очистки, стиль написання та ін.), після чого вся статистика автоматично перераховується та з’являється можливість знову її проаналізувати.

  • Скрипти

    За допомогою скриптів (C#, Visual Basic.Net) можна значно розширити та доповнити функціонал обробки документів. Рішення дозволяє використовувати всі стандартні функції .Net та особисті класи. Для написання скриптів не потрібне встановлення Visual Studio, всі дії виконуються у Form Definition Studio. Програміст має доступ до всіх процесів описів форм, розпізнавання та виводу результатів.
    Наведемо декілька прикладів використання скриптів:

    • Форма містить таблицю. Один із стовпців таблиці має сквозну нумерацію. Програміст може отримати результати розпізнавання кількох осередків таблиці які йдуть підряд, потім, втямивши закономірність, примусово встановити значення усім осередкам стовпця.
    • Документ містить дані контрагента (назву, індивідуальний номер, адресу, телефон та ін.). Коли буде розпізнаний індивідуальний номер, можна звернутися до зовнішнього джерела даних (наприклад, до бази даних) і отримати інші дані контрагента для подальшого використання.
  • Налштування вихідних даних

    Form Definition Studio має у своєму складі всі необхідні інструменти для формування та налаштування вихідних даних. Існує можливість конкретизировать структуру даних (задати необхідні поля для экспорту, розмістити їх у потрібному порядку, зумовити їх розмір, задати значення за замовчуванням). Користувач може виконати розпізнавання тестової партії документів та отримати результуючі дані для перегляду, згідно заданій структурі. Вихідні дані можуть бути експортовані у вигляді текстових файлів або таблиць баз даних (txt, xml, БД через OLEDBODBC, SharePoint).



FormXtra Administrator (Обробка)

FormXtra Administrator надає користувачеві повний контроль над усіма процесами обробки. Адміністратор має можливість проводити моніторинг роботи системи на загальному і детальному рівнях. Програма дозволяє:

  • Отримати спрощений аналіз у вигляді графічних діаграм

    В режимі реального часу на екран адміністратора виводиться повна статистика про стан документів які обробляються — від їх сканування та розпізнавання до повторної перевірки аудитором і виводом до бази даних.

  • Отримати повний, розгорнутий аналіз

    Програма забезпечує отримання всебічної статистичної інформації про стан процесу обробки: перегляд результатів ідентифікації типу документу, перегляд попередніх результатів розпізнавання (без обліку даних, які були відправлені системою на верифікацію), перегляд реальних результатів розпізнавання, звіт про продуктивність та якість роботи кожного аудитора.

  • Управляти процесом обробки розпізнавання документів

    Окрім функцій аналізу і контролю FormXtra Administrator дає можливість адміністратору управляти процесами обробки. Адміністратор може зняти з обробки будь-який пакет документів, який має погану якість. Після отримання більш якісних сканованих матеріалів, адміністратор може знову додати пакет в обробку.



Capture (Обробка)

Capture – це один з інструментів FormXtra етапу обробки, який служить для імпорту зображень та подальшого завантаження файлів в базу даних системи.
Файли зображень можуть попадати на обробку кількома способами:

  • Використовуючи сканер

    Програма має широкі можливості для зручної та продуктивної роботи. В залежності від типу сканера який використовується, можна сканувати як по одному листу, так і пакет документів. Найбільш цікаві можливості:

    • обробка виключних ситуацій (зупинити сканування, видалити файли з дефектами, повторит сканування);
    • управління налаштуваннями сканування (дозвіл, тип сканування, режим, контрастність, яскравість, стискання та ін.);
    • використання зумовленого роздільника завдань (лист з деяким штрихкодом) при обробці різносторонніх пакетів документів, якщо того вимагає завдання.

    В теперішній час можливе підключення сканерів з інтерфейсом ISIS.

  • Шляхом імпорту із деякої папки комп’ютера

    В такому варіанті користувач має право використати софт, який йому сподобався, для задач использовать понравившийся ему софт для задач витягання зображень із паперових документів. Інтерфейс обміну (ISIS, TWAIN) немає істотної ролі, так як в більшості, програма за замовчуванням, що йде в комплекті постачання із сканером, має потрібний драйвер.

  • Програмно

    Використовуючи платформу .Net та класи, що йдуть в комплекті з рішенням, можна вирішувати будь-які задачі імпорта зображень. Це може бути робота з протоколами FTP (POP3) або завантаження зображень «на льоту» із горячій папки. Також слід згадати про широкий набір методів для корекції і перетворенню файлів : усунення кутового перекосу і шуму, обертання та ін. (Deskew, Despeckle, Rotate).

Для роботи з файлами зображень є зручний інструментарій з можливостями для їх перегляду та корекції. Слід згадати і про детальну статистику при роботі з Capture, завдяки якій користувачеві доступна інформація про відправлені, передані, та файли що обробляються. Також додатково ведеться логірування по всіх діях роботи програми.



TotalKeying (Обробка)

Після того, як документ був класифікований та розпізнаний, деякі поля потребують додаткової перевірки - верифікації. Це викликано тим, що друкований матеріал або сканована копія можуть мати погану якість. В результаті, система не може самостійно прийняти рішення і сумнівається в результаті, тому необхідна участь людини (аудитора).

Програма TotalKeying відображає аудитору спірні моменти в документі, а він в свою чергу, повинен підтвердити або спростувати гіпотезу системи про результати розпізнавання поля. Основні причини попадання даних на верифікацію:

  • Низький відсоток розпізнавання

    На попередньому етапі роботи за допомогою Form Definition Studio для кожного поля задають належний рівень надійності розпізнавання. Якщо з яких-небудь причин рівень надійності не досягнутий, то поле автоматично попадає на верифікацію.

  • Програмна валідація

    Скрипти доповнюють та розширюють функціонал обробки документів, їх створюють на попередньому етапі роботи за допомогою Form Definition Studio . В якості прикладу можна розглянути квитанцію, на якій фігурує рукописна адреса. Номери домів або квартир практично ніколи не мають чотиризначних значень. Якщо система розпізнала на належному рівні подібне поле, то не буде зайвим перевірити ще раз ці дані. Скрипт (бізнес-правило) примусово відішле поле на перевірку.

Для зручної роботи аудитора програма TotalKeying має різні опції та налаштування. Користувач може масштабувати зображення, налаштовувати колір різних елементів (фон, поле, маркер) тощо.