Читать «Журнал "Компьютерра" №729» онлайн - страница 47

Компьютерра

Великий и могучий

Для создания языковой модели в ЦРТ применяется N граммный подход, при этом чаще всего используются би граммы и три граммы. Для тренировки языковых моделей используются текстовые базы данных. В Интернете были собраны аудиозаписи новостей, которым присущ один и тот же стиль речи. В этой базе сейчас около 35 млн. слов. Для оценки параметров языковых моделей требуются огромные объемы данных, и, как правило, этих объемов не достаточно. Всегда существуют n граммы, которые не встретились в языковой модели. В этом случае используют сложные техники сглаживания и отката для оценки вероятностей так называемых unseen n грамм.

Все это более или менее хорошо работает в английском языке и ему подобных, где есть жесткая последовательность слов в предложении. С русским языком у специалистов возникают немалые трудности. "В области акустики наибольшую проблему для распознавания русской речи представляет необычайно сильная количественная и качественная редукция гласных безударных слогов, - объясняет Марина Татарникова, - частично обусловленная свободным характером словесного ударения". Вместе с низкой артикуляторной напряженностью русской речи это приводит к нейтрализации и "размазыванию" акустических свойств сегментов, особенно в спонтанной разговорной речи.

С точки зрения грамматики и синтаксиса русский язык относится к синтетическим языкам со свободным порядком слов. "Богатая словоизменительная парадигма нашего языка существенно затрудняет языковое моделирование на основе "классической" n граммной модели, - говорит Марина Татарникова, - поскольку требует использования чрезвычайно больших речевых корпусов для получения приемлемого числа реализаций всех входящих в словарь словоформ". Приходится ученым экспериментировать, использовать другие подходы при построении языковой модели, например морфемную или классовую. В морфемной модели словари строятся отдельно для основ и флексий, при этом n граммные модели считаются для основ и флексий отдельно. В классовой модели n граммы строятся не для слов, а для так называемых классов. Существует два основных подхода к построению классов: статистический и частеречный (от "часть речи"). Здесь улучшение достигается не при изолированном использовании классовой модели, а при интерполяции ее с базовой. Выбор того или иного подхода для русского языка требует исследований. Чем сейчас и занимаются в ЦРТ.

Убийственный нюанс

Увы, языковая модель, построенная на текстах новостной базы, не может быть применена в создании, например, языковой модели для распознавания спортивных трансляций (и наоборот).

"Общая модель языка, - говорит Татарникова, - в принципе, вряд ли интересна: каждый приобретающий систему распознавания будет использовать ее в своих целях, подразумевающих определенный стиль речи. И за рубежом так же".