14.11.2013
Многие люди, как специалисты, так и конечные пользователи, знакомы с возможностями систем распознавания и их способностью конвертировать изображения в доступный для поиска электронный текст. Большинству потребителей знакомы решения от компаний Adobe, Apple и Microsoft, которые используют возможности OCR и позволяют распознавать факсимильные сообщения, PDF файлы и прочие документы. Полученные цифровые данные можно легко скопировать или вставить, найти в компьютере.И все это с очень высокой точностью.
Но когда речь идет о распознании рукописного текста, это совершенно другое дело.
Печатный текст может иметь большую градацию шрифтов, но в целом, буквы выглядят одинаково. Более того, программное обеспечение можно дополнительно обучить распознавать текст, для набора которого использовался декоративный шрифт. При рукописном тексте существует столько вариантов написания букв и слов, сколько людей на Земле. У каждого человека свой почерк, который превращается в непостижимое количество разных стилей написания букв. Поэтому отдельное распознавание каждой буквы в слове, приведет к непригодному результату. Это – недостаток.
Преимущество состоит в том, что можно использовать заранее подготовленный словарь слов, тогда программа сможет находить и распознавать определенные слова независимо от стиля почерка. Например, возьмем потребность обрабатывать корреспонденцию в службе по работе с клиентами. Большинство компаний хорошо представляют себе систему, применяющуюся для классификации корреспонденции. Человек просматривает письмо, чтобы найти ключевые слова или фразы. Аналогично действует и программа, а затем применяет правила классификации и соответствующим образом маршрутизирует документ. То же самое можно применить к карточкам пациентов, используя медицинские обозначения и справочники по диагностике.
Теги: ICR, OCR
Но когда речь идет о распознании рукописного текста, это совершенно другое дело.
Печатный текст может иметь большую градацию шрифтов, но в целом, буквы выглядят одинаково. Более того, программное обеспечение можно дополнительно обучить распознавать текст, для набора которого использовался декоративный шрифт. При рукописном тексте существует столько вариантов написания букв и слов, сколько людей на Земле. У каждого человека свой почерк, который превращается в непостижимое количество разных стилей написания букв. Поэтому отдельное распознавание каждой буквы в слове, приведет к непригодному результату. Это – недостаток.
Преимущество состоит в том, что можно использовать заранее подготовленный словарь слов, тогда программа сможет находить и распознавать определенные слова независимо от стиля почерка. Например, возьмем потребность обрабатывать корреспонденцию в службе по работе с клиентами. Большинство компаний хорошо представляют себе систему, применяющуюся для классификации корреспонденции. Человек просматривает письмо, чтобы найти ключевые слова или фразы. Аналогично действует и программа, а затем применяет правила классификации и соответствующим образом маршрутизирует документ. То же самое можно применить к карточкам пациентов, используя медицинские обозначения и справочники по диагностике.
Теги: ICR, OCR
Читати інші новини...