Читать «Цифровой журнал «Компьютерра» № 135» онлайн - страница 7
Коллектив авторов
- То есть система, сделанная для перевода, поможет облегчить и распознавание?
- Да. Перевод был изначальной целью создания ABBYY Compreno, но чем дальше мы заходили, тем лучше видели, что можно получить эффекты и в других, смежных областях. Идея того, что текст на любом языке трансформировался в объекты на универсальном дереве смысловых понятий, привела нас к тому, что и поиск можно делать по смысловым понятиям, и сравнение документов, и, например, автоматическую расстановку тегов в документах. Когда у людей много электронных документов, сохраняемых на сервере, заставить каждого пользователя расставлять теги невозможно. Зато можно все документы пропускать через некоторый фильтр, который будет говорить, что этот документ на эту тему с такими-то ключевыми понятиями, автоматически расставляя теги.
- И от этого мы переходим к следующей и ещё более интересной вещи — поиску. Можно, выходит, сделать поисковик, который понимает, что написано на странице?
- Да, это одна из интересных задач. Сейчас что-то найти в интернете становится всё сложнее. Во-первых, приходится задавать вопрос не на человеческом языке, а упрощать его. Несколько месяцев назад у меня вышел из строя аккумулятор от мотоцикла. И я подумал: надо бы посмотреть, как его правильно заряжать в зимнее время. Начал искать, но находились только страницы о том, как купить новый аккумулятор, но не как заряжать его. Поисковые системы нового поколения будут искать, основываясь на семантическом индексе. С одной стороны, они из-за этого будут требовать больше ресурсов для своей работы: наша практика показывает, что семантический индекс в несколько раз превышает объёмы начального документа, ведь чтобы построить все взаимосвязи между понятиями, нужно много и вычислительных ресурсов, и места, чтобы хранить такой сложный индекс. С другой стороны, эти поисковики будут выдавать, во-первых, более релевантные результаты, а во-вторых, можно будет решать и более сложные задачи. К примеру, когда запрос сформулирован на одном языке, система всё равно поймёт, что за понятия в этом запросе, и сможет найти их в документах и на других языках, поддерживаемых системой. Если всё это будет сочетаться с переводом, то на запрос, построенный на одном языке, может быть получен релевантный ответ в виде документов на разных языках, автоматически переведённых на нужный.
- То есть можно сказать, что ABBYY — это потенциально следующий Google?
- Вряд ли мы будем как Google, мы не пишем свою поисковую систему. Мы, скорее всего, будем работать с кем-то, кто уже имеет поисковую инфраструктуру.
- Мне кажется, что я даже знаю, кто это может быть!
- Ну да, есть компании. Кроме того, хотел бы отметить, что кроме задач поиска информации частными пользователями есть ещё задачи корпоративного поиска. У организаций есть внутренние базы, в которых нужно осуществлять поиск и которые они, понятное дело, никакой внешней поисковой системе не выдадут. Однако часто бывает, что в интернете найти что-то быстрее, чем у себя на компьютере, — я не раз слышал такие жалобы. Я думаю, такие клиенты тоже будут заинтересованы в нашей технологии, в том, чтобы встраивать технологии интеллектуального и многоязычного поиска, извлечения фактов и связей между фактами в решения, обеспечивающие поиск корпоративной информации. Я бы даже сказал, что в большей степени мы ориентируемся не на массовый, а на корпоративный рынок.