Читать «Журнал "Компьютерра" №729» онлайн - страница 49
Компьютерра
"И акустические, и языковые модели, а также алгоритмы для декодера - у нас собственной разработки", - говорит Хитров. По его словам, решение для диктовки текста будет готово в течение года. Сейчас ЦРТ доделывает программу Voice Digger для Auto Data Mining (поиск ключевых слов в звуковых файлах), а также готов представить распознавание команд для IVR [Interactive voice response.] -систем (управление голосом).
Из всей этой группы готовящихся или почти готовых продуктов самой массовой кажется система для диктовки.
Она призвана сделать реальностью голубую мечту многих людей, желающих диктовать компьютеру текст, а не набирать вручную. Однако в ЦРТ повторяют, что такие системы эффективны лишь при работе с тематически ограниченным словарем. Впрочем, электронного писаря Центр пока в люди не выводит, зато мне удалось немного поработать с другими программами, благо базируются они на одной и той же технологии.
Система IVR используется в самом ЦРТ для автоматического перенаправления входящих звонков. Тест прошел на ура, но как-то не впечатлил: автосекретарь вместо привычного "нажмите 1 или 2" говорил "скажите 1 или 2".
Наверное, можно реализовать и более сложные системы такого типа, но рука тянулась к клавиатуре телефона - привычка.
Система голосовой верификации "Голосовой замок" (Voice key) призвана контролировать доступ к чему угодно: к компьютеру, к папке на диске, к сайту. В ЦРТ, например, сотрудники произносят пароль, если нужно выйти в Интернет.[Удивляет не столько технология, сколько применение. - Прим. ред.] Банальным повтором ключевой фразы обойти систему не удалось. Не удалось этого сделать и с помощью записи ключевой фразы на диктофон с последующим воспроизведением через встроенный динамик, хотя, конечно, это был примитивный способ, но студийного микрофона и качественных динамиков поблизости не оказалось. Voice key требует произносить ключевую фразу в одной манере, микрофон следует держать примерно на одном и том же расстоянии ото рта. Система может быть чувствительной к замене микрофона или изменению тембра голоса при, скажем, простуде и, что интересно, не примет абсолютного полного совпадения с образцом, полагая это подвохом.
Для теста Voice digger мы запустили 23-секундный фрагмент новостной передачи, состоящий из двух частей: репортажа корреспондента с улицы и комментария диктора из студии. Ключевое слово, выбранное для поиска по записи, состояло из восьми слогов. При указании ключевого слова в программе нужно отметить ударную гласную. Поскольку ключевое слово нарочно было выбрано так, чтобы оно пришлось на часть записи, сделанную на улице, поиск результатов не дал: акустические модели действующей системы соответствуют или близки к студийной записи.