Читать «Журнал PC Magazine/RE №08/2009» онлайн - страница 2

PC Magazine/RE

Робот заменяет секретаршу

Компания Cognitive Technologies разработала подсистему «Понимание документов» для комплекса автоматизации документооборота «ЕВФРАТ-Документооборот». Несмотря на развитие цифровых технологий управления документами, самым узким местом в организации документооборота по-прежнему остается ввод данных. Глобальной системы электронной отчетности еще не построено, и организации обмениваются отчетами, справками, актами и т. д. в бумажном виде.

Казалось бы – ну и что? Технологии оптического распознавания сегодня почти достигли совершенства, у той же Cognitive Technologies имеется OCR собственной разработки (CuneiForm). Но есть один нюанс. Бумажный документ – так сказать, плоский, его структуру или атрибуты можно выделить разве что оформлением.

После цикла «печать на бумаге – ввод со сканера» содержимое документа и его атрибуты, как правило, приходится вводить руками, вовлекая в процесс человека – а это компонент, как известно, ненадежный и не слишком производительный (разумеется, если сравнивать его с автоматизированной системой).

«ЕВФРАТ-Документооборот» решает проблему. По словам разработчиков, это первая в России система электронного документооборота, где реализованы принципы смыслового анализа документов.

«ЕВФРАТ-Документооборот» способен самостоятельно, без участия человека, разбирать содержание документа и понимать его (под термином «понимание» подразумевается автоматическое распознавание смысловых частей, например, что это – название компании, дата, исходящий номер, список контрагентов или что-то иное?). Понятая таким образом информация автоматически заносится в регистрационную карточку документа для дальнейшей работы с ним в СЭД.

В основу подсистемы «Понимание документов» легли результаты НИОКР компании в области анализа информации (синтаксический разбор, структурная модель представления знаний о языке, описание структурных связей). Кроме этого был учтен опыт, полученный в ходе создания информационных систем с модулями понимания документов для Пенсионного фонда РФ и ОАО «ММК». Специалистами Cognitive Technologies создано XML-представление делового документа, на базе которого осуществляется обучение системы «пониманию».

Подсистема «Понимание документов» может обрабатывать электронные документы текстового и графического (после распознавания) форматов или поступившие в бумажном виде (после сканирования и распознавания). В настоящее время система обучена пониманию тех видов документов, которые требуют массовой регистрации и учета в организациях – входящей корреспонденции и договоров по различным видам деятельности.