Читать «Журнал "Компьютерра" №729» онлайн - страница 46

Компьютерра

Для распознавания же слитной речи необходимы огромные речевые базы, нужны специалисты-алгоритмисты и вычислительные мощности. Поначалу проблема казалась слишком трудной и многогранной, если не сказать - безграничной.

Моделирование

Система распознавания слитной речи представляет собой взаимодействие акустических моделей, лексикона, языковой модели и декодера. Если акустические модели выполняют оценку вероятностей распознавания отдельных аллофонов, то языковые модели оценивают вероятность следования слов друг за другом. Лексикон содержит все возможные варианты произнесения слов, которые будут распознаваться в процессе работы системы. Декодер определяет лучшую гипотезу в сети распознавания. Это программа, оперирующая большими объемами данных, которая в максимально сжатые сроки должна принять решение о распознанном тексте. Для успешной работы программы требуется разработка особых алгоритмов, ускоряющих процесс и уменьшающих число ошибок.

"Сложностей хватает, - признает Марина Татарникова. - Вот вы и я произносим звуки и понимаем друг друга.

С точки же зрения машины мы произносим одно и то же слово совершенно по-разному". По этой причине при создании систем дикторонезависимого пофонемного распознавания используется статистический подход. Для реализации такого подхода нужны большие базы с образцами речи разных людей для накопления параметров вероятностных моделей. Если база данных содержит достаточное количество образцов, оказывается возможным создать модель речевого процесса, отражающую вариативность естественной речи.

Акустические модели, - поясняет Татарникова, - это статистические модели, основанные либо на аппарате скрытых марковских моделей, либо на нейронных сетях. Обучение моделей происходит на размеченных речевых базах". В ЦРТ обучали собственные акустические модели на двухстах пятидесяти дикторах, половина из которых - мужчины, а половина - женщины. Все дикторы проживают в европейской части России.[Запись речевой базы частично велась ЦРТ, а частично приобреталась на стороне.]Таким образом, на решение задачи сразу накладывалось некоторое ограничение, ведь русская речь от региона к региону меняется очень сильно и звучит по-разному. Вся база данных составляла около тридцати часов речи. Текст для дикторов подбирался так, чтобы в нем присутствовали все аллофоны русского языка во всех окружениях. Часть записей лингвисты вручную разбивали на сегменты (фоны), для чего есть специальные программы (речь после записи отображается в графическом виде, и на картинке специалист ставит метки на границах сегментов). После того как часть материала была сегментирована, строились начальные акустические модели, а затем, по определенным алгоритмам, на компьютере обрабатывалась остальная часть базы, при этом сегментация проводилась уже автоматически. В процессе обработки параметры акустических моделей переопределялись. Обучение моделей на шести вычислительных машинах заняло около двух суток.