Читать «Журнал PC Magazine/RE №08/2009» онлайн - страница 2
PC Magazine/RE
Робот заменяет секретаршу
Компания Cognitive Technologies разработала подсистему «Понимание документов» для комплекса автоматизации документооборота «ЕВФРАТ-Документооборот». Несмотря на развитие цифровых технологий управления документами, самым узким местом в организации документооборота по-прежнему остается ввод данных. Глобальной системы электронной отчетности еще не построено, и организации обмениваются отчетами, справками, актами и т. д. в бумажном виде.
Казалось бы – ну и что? Технологии оптического распознавания сегодня почти достигли совершенства, у той же Cognitive Technologies имеется OCR собственной разработки (CuneiForm). Но есть один нюанс. Бумажный документ – так сказать, плоский, его структуру или атрибуты можно выделить разве что оформлением.
После цикла «печать на бумаге – ввод со сканера» содержимое документа и его атрибуты, как правило, приходится вводить руками, вовлекая в процесс человека – а это компонент, как известно, ненадежный и не слишком производительный (разумеется, если сравнивать его с автоматизированной системой).
«ЕВФРАТ-Документооборот» решает проблему. По словам разработчиков, это первая в России система электронного документооборота, где реализованы принципы смыслового анализа документов.
«ЕВФРАТ-Документооборот» способен самостоятельно, без участия человека, разбирать содержание документа и понимать его (под термином «понимание» подразумевается автоматическое распознавание смысловых частей, например, что это – название компании, дата, исходящий номер, список контрагентов или что-то иное?). Понятая таким образом информация автоматически заносится в регистрационную карточку документа для дальнейшей работы с ним в СЭД.
В основу подсистемы «Понимание документов» легли результаты НИОКР компании в области анализа информации (синтаксический разбор, структурная модель представления знаний о языке, описание структурных связей). Кроме этого был учтен опыт, полученный в ходе создания информационных систем с модулями понимания документов для Пенсионного фонда РФ и ОАО «ММК». Специалистами Cognitive Technologies создано XML-представление делового документа, на базе которого осуществляется обучение системы «пониманию».
Подсистема «Понимание документов» может обрабатывать электронные документы текстового и графического (после распознавания) форматов или поступившие в бумажном виде (после сканирования и распознавания). В настоящее время система обучена пониманию тех видов документов, которые требуют массовой регистрации и учета в организациях – входящей корреспонденции и договоров по различным видам деятельности.