Читать «Цифровой журнал «Компьютерра» № 135» онлайн - страница 5
Коллектив авторов
- Какое соотношение потребления вашей продукции в России и за рубежом?
- Россия и СНГ дают от 20 до 25 процентов.
- Могут ли какие-то тенденции отрицательно повлиять на необходимость в технологиях распознавания? Например, процессорные мощности станут доступнее, и сократится надобность в технологиях распознавания?
- Исходя из того, что человек воспринимает информацию при помощи звука и зрения, в принципе, необходимость анализа текстовой информации вряд ли отпадёт. Вопрос в том, в каком виде эта информация будет поступать на вход. Например, сейчас такие вещи, как извлечение информации из окружающей нас действительности, решаются достаточно слабо. Есть компании, которые лицензируют технологии распознавания вывесок и знаков, чтобы программировать реагирование на них. Но пока это используется в ограниченном объёме. Я думаю, что повышение мощностей устройств, на которых происходит предобработка изображений, лучшее соединение их с интернетом и, наконец, бесконечные мощности, которые есть в «облаке», будут вести к повышению качества обработки любой картинки, которая попадёт на вход, будь это статичное фото или видеопоток. Если что-то и может повлиять негативно, то тот факт, что люди будут больше обмениваться электронной информацией.
- По сути, уже сейчас все документы набираются на компьютере.
- В последние несколько лет в США несколько уменьшаются объёмы производимой бумаги, но не объёмы генерации этой бумаги, если мы говорим о бизнес-транзакциях. Почему-то люди предпочитают физические носители. Если говорить о России, то я думаю, что у нас в ближайшее десятилетие будет только подъём бумажных носителей — как в повседневной жизни, так и в бизнесе. Тем более что необработанных архивов ещё великое множество. Но в итоге, конечно, электронный обмен данными приведёт к тому, что некоторые сценарии, скорее всего, отомрут и определённые данные будут храниться только в электронном виде. Но технология распознавания и там может оказаться полезной — к примеру, если вам из файла PDF нужно извлечь структурированную информацию. Можно попробовать извлечь текст, но по опыту могу сказать, что PDF настолько по-разному генерируются разными программами, что проще будет этот документ превратить в картинку и распознать.
- Как вы расцениваете угрозу появления бесплатных OCR? Google, к примеру, такой уже предоставляет.
- Мы зарабатываем достаточно много денег на применении этой технологии в бизнесе. И когда речь идёт о бизнесе, то продукт высокого качества бесплатно никто не раздаёт. И требования здесь довольно высоки: если, например, в документе приходится перепечатывать хотя бы несколько символов на каждой странице, то технология уже считается непригодной для использования в реальных условиях. Мы познакомились с тем, как работает распознавание на Google Docs. Идея хорошая, но сервису есть куда расти по качеству. Зато бесплатные решения могут популяризовать технологию в целом. Многим пользователям ещё нужно объяснять, чем отсканированный документ отличается от текста. Индивидуального пользователя может и устроить бесплатное решение, но он поймёт принцип. И если бесплатный продукт будет предоставлять недостаточное качество, то он воспользуется платным.