Читать «Журнал "Компьютерра" №729» онлайн - страница 48

Компьютерра

Татарникова приводит как доказательство от противного довольно известную разработку Dragon, принадлежащую фирме Nuance. Продаваемая этой компанией система диктовки для любого текста и любого пользователя требует перед началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря - задача пользователя. Насколько успешно он с ней справится, настолько успешно будет работать система. Любая система распознавания знает только те слова, что есть в ее словаре.

Существует в системе Dragon подстройка и под голос диктора. Для этого нужно минут тридцать почитать тексты, предложенные системой, чтобы программа адаптировала параметры существующих акустических моделей.

В ЦРТ также ведется работа по созданию алгоритмов адаптации акустических моделей под голос диктора, но в принципе уже ясно: журналистам, которым приходится проводить интервью с разными людьми в разном окружении, рассчитывать особо не на что. Универсального продукта для русского языка ждать не стоит. Даже более простой (в контексте распознавания) английский язык специалистам пока не поддается. О записи неформальной беседы, кажется, нет и речи.

"Надеяться на быстрое появление мобильных и даже стационарных устройств для распознавания спонтанной речи (например, нашего с вами разговора) вряд ли стоит в ближайшее время, - говорит Марина Татарникова.

 Спонтанная речь отличается более сложными языковыми и акустическими моделями. Кроме того, необходимы речевые базы спонтанной речи гораздо больших объемов".

Вопрос специализации

"Определенный скепсис насчет систем распознавания речи, конечно, имеет место, - продолжает Татарникова.

- На самом же деле, в мире такие системы есть, и они замечательно работают. Например, их используют медицинские учреждения в США". Известно, что медицинским работникам постоянно требуется делать какие-то записи, будь то история болезни или протоколирование действий. Медики в США просто наговаривают текст, который автоматически переводится в машинный вид. Этот текст нуждается лишь в косметической правке. Соответствующие технологии есть, к примеру, у той же Nuance. То, что это хорошие системы, косвенно подтверждает Алексей Хитров:

"У одной Nuance - капитализация 5 млрд. долларов. Это на три порядка больше, чем мы смогли вложить в наши разработки. Обращаю внимание на то, что и у них наибольших успехов достигли системы, работающие на ограниченных специализированных словарях. По разным данным, объем продаж только медицинских систем распознавания речи в США составляет 12–15 млрд. долларов".

В ЦРТ тоже планируют зарабатывать именно на специальных воплощениях своей системы распознавания, то есть компании интересен прежде всего корпоративный рынок. Правда, не факт, что первыми с новыми технологиями ознакомятся медики. В Америке создание речевых баз для систем распознавания было государственным проектом, чего не скажешь о российских разработках. Интерес, конечно, у наших медиков тоже есть, но нет государственной заинтересованности, чтобы оплачивать дорогостоящие исследования.