Достатньо значущій відсоток ділових та офісних документів містить рукописний текст. Згідно досліджень, ці дані грають ключову роль також, і в обов’язковому порядку попадають до облікових систем шляхом ручного введення. Підприємства не намагаються автоматизувати цю роботу, в результаті, введення даних забирає багато ресурсів та часу. Чому? Рукописний текст, також як і друкований, можливо вилучати з документів, отримуючи при цьому максимальну точність, Рішення яке ми пропонуємо FormXtra Capture, як найкраще, підходить для цих завдань. Тепер розпізнавання рукописного тексту, цифр, образів повністю автоматизоване.
Звичні для багатьох програми для розпізнавання тексту відрізняються від рішень з вилучення даних. На це є свої причини. Для облікових програм потрібні дані, а ні редаговані форми з різними графічними елементами (таблиці, рамки, лінії, засічки та логотипи). Для автоматизації введення потрібен підготовчий етап - налаштування, де користувач вказує яку інформацію потрібно вилучити, як її обробити, розпізнати та експортувати. Для найбільш детального ознайомлення з основними етапами роботи (в т.ч. і налаштування) системи дивіться схему роботи. Ми ж зосередимось на розпізнаванні рукописного тексту в документах, виділяючи важливі особливості:
-
Використання контекстної інформації
Система не завжди може побудувати впевнену гіпотезу відповіді. Та причин для цього маса: погана якість паперового носія або скану, колір інструмента яким пишуть,надто зв'язний і нерозбірливий почерк. Використання словників, які підібрані з урахуванням слів та фраз, тих що прийняті в конкретній галузі, дозволяє істотно покращити розпізнавання письмового тексту. Словники надають список можливих відповідей, які використовуються системою, щоб визначити найкращий варіант із можливих. Див. також статтю: розпізнавання рукописного тексту: словники та ICR
-
Використання регулярних виразів
Регулярні вирази — вкрай корисний інструмент, який можливо використовувати для розпізнавання складних послідовностей символів.
-
Використання псевдонімів
Помилки в проектуванні документу можуть приводити до невизначеності при її заповнені. В результаті замість одного варіанту написання з’являється безліч альтернативних варіантів, які також являються вірними. Наприклад: Харкiв, мХаркiв (точка знаходиться в комірці з буквою "м"), м.Харкiв (точка знаходиться в окремій комірці). Більш того, специфіка різних регіонів України дозволяє сміливо припустити, що люди заповнюють документи на рідній мові, ігноруючи вимоги та основну мову документу. Приклад: Харків, мХарків, м.Харків. Використання псевдонімів (alias) дозволяє перетворити усі відповіді розпізнавача до єдино вірної відповіді.
-
Використання скриптів (бізнес-правил)
Скрипти використовують у якості логічного інструменту при розпізнаванні. Вони використовують теорії імплікації (if, else) або сценаріїв (use, case) для визначення наступної коректної відповіді або підтвердження достовірності одного або декількох полів. Поширеною областю застосування є автоматичне заповнення полів з пошуком в базі даних (наприклад, якщо код 00123, то ім’я, адреса та телефон автоматично повинні бути х, у, z).
-
Алгоритми голосування
Доволі часто до рукописного поля, що видобувається пред'являють підвищені вимоги до точності розпізнавання. В подібних випадках є можливість розпізнати одне й те саме поле різними способами або движками (ABBYY FineReader Engee, CuneiForm та ін.), а після, порівнювати відповіді для знаходження істини.
Рішення та послуги, які ми пропонуємо, дозволяють обробляти документи значно швидше та ефективніше. Позбавте Ваше підприємство від складної, рутинної та малоцікавої роботи.
Ми вміємо розпізнавати рукописний текст краще за інших!