Читать «Журнал "Компьютерра" №729» онлайн - страница 45
Компьютерра
ТЕХНОЛОГИИ: Драконья погибель
Каждый журналист мечтает о том, чтобы прийти после встречи, подключить диктофон к компьютеру и открыть весь разговор непосредственно в текстовом редакторе. На деле же приходится тратить уйму времени на расшифровку аудиозаписи. Автоматизации это процесс поддается плохо, если, конечно, у вас нет расторопной прислуги. Да и просто наговаривать тест, отложив клавиатуру, хочется еще со школьных лет. Фантастика? Специалисты питерского Центра речевых технологий полагают, что нет.
Центр речевых технологий был образован в 1990 году небольшой группой инженеров, часть которых работала в НИИ "Дальняя связь", где была своя речевая лаборатория. Впрочем, заниматься чистой наукой в ЦРТ не получилось, компании были нужны проекты, способные быстро себя окупить.
"Сейчас у нас работает около двухсот человек, - говорит Алексей Хитров, аналитик ЦРТ. - В основном мы специализируемся на системах профессиональной записи звука, включая многоканальную запись. Мы разработали профессиональный диктофон "Гном", у нас есть также системы протоколирования и стенографирования".
Весьма недешевый - больше 1000 долларов - цифровой диктофон "Гном 2М" отмечен экспертами МВД РФ как прибор, записывающий человеческую речь с качеством, позволяющим проводить идентификацию голоса. Кроме того, ЦРТ сам занимается криминалистической фоноскопической экспертизой: по словам Хитрова, доля компании в этом бизнесе составляет около 25% по всему миру.[В основном такая работа ведется в развивающихся странах]
О работе ЦРТ над распознаванием речи и, главное, о сложностях этой проблемы рассказала Марина Татарникова, математик по образованию, руководящая группой исследователей Центра.
"Сначала у нас было реализовано дикторозависимое распознавание изолированных команд как целостных образов, для небольших словарей, - рассказывает Татарникова. - Процедура распознавания в этом случае требует хранения нескольких эталонов для каждой команды. Потом были разработаны алгоритмы построения акустических моделей аллофонов [Аллофон(а) (от греч. бllos - иной, другой, и phфnз - звук), вариант, разновидность фонемы, обусловленная данным фонетическим окружением (БСЭ). Например, в словах "первое" и "апреля" звук "п" находится в разном окружении, и, соответственно, будут разные аллофоны. и на основе этого - пофонемное [Фонема (от греч. phonema - звук), основная единица звукового строя языка, предельный элемент, выделяемый линейным членением речи (БСЭ)] распознавание команд и поиск ключевых слов, независимые от диктора и словаря".
Для распознавания же слитной речи необходимы огромные речевые базы, нужны специалисты-алгоритмисты и вычислительные мощности. Поначалу проблема казалась слишком трудной и многогранной, если не сказать - безграничной.
Система распознавания слитной речи представляет собой взаимодействие акустических моделей, лексикона, языковой модели и декодера. Если акустические модели выполняют оценку вероятностей распознавания отдельных аллофонов, то языковые модели оценивают вероятность следования слов друг за другом. Лексикон содержит все возможные варианты произнесения слов, которые будут распознаваться в процессе работы системы. Декодер определяет лучшую гипотезу в сети распознавания. Это программа, оперирующая большими объемами данных, которая в максимально сжатые сроки должна принять решение о распознанном тексте. Для успешной работы программы требуется разработка особых алгоритмов, ускоряющих процесс и уменьшающих число ошибок.