Читать «Журнал "Компьютерра" №723» онлайн - страница 47

Компьютерра

Айра Форман (Ira Forman) продемонстрировал мне в действии систему, предназначенную для общения с людьми с ослабленным слухом. Проект называется Jumbo - как пояснил Айра, в честь классического диснеевского персонажа, миссис Джамбо, чье потомство обладало очень большими ушами. Беседа велась - что оживило дело - не с кем-нибудь, а с клоном "Элизы", который Форман прикрутил ко второму концу линии связи. Четко и размеренно выговаривая слова (в аудитории было по-настоящему шумно), он сказал в микрофон: "Я - десяти футов ростом!" Элиза не удивилась:

- Когда вы стали десяти футов ростом?

- Я был десяти футов ростом всю мою жизнь.

- Что значит быть десяти футов ростом?

- Это значит, что я слишком часто ударяюсь головой об потолок.

- Я понимаю, что это значит.

- В самом деле?..

Увы, распознавалка ViaVoice 10.5 была натренирована на Формана, поэтому у меня не было случая испытать ее на себе. Но транскрипт беседы выводился на экран (а Элиза отвечала не голосом, а текстом), и было видно, что хоть и редко, но проскальзывают ошибки (Элизу это не смущало). В этом году Айра планирует перейти на новый айбиэмовский движок, не требующий тренировки на диктора. Он сказал, что с нежностью относится к этой работе и уверен в ее успехе - как минимум в части общения с глухими коллегами в компании. Проект включен во внутреннюю программу освоения новых технологий, готовится к полевым испытаниям, программа реализована как плагин к Lotus Sametime. В общем, все довольно буднично - именно это и впечатляет. Распознавание речи как-то обошлось без официального "прорыва", с речами, тостами и цветами - а вроде бы уже и работает…

В последнем посещенном мною "киоске" (Real-time translation service ) я все-таки поучаствовал в тестировании вот такой связки "речь-речь" (тоже плагина для Sametime): вы говорите по-английски, видите распознанный английский транскрипт, потом - его текстовый перевод на какой-нибудь язык и одновременно слышите перевод на этом языке. В общем и целом - работает, только не надо уж очень умничать. Я со своим "сколько будет трижды пять" вызвал некоторое замешательство на экране при попытке перевода на испанский - которое можно было бы списать на произношение, но не хочется, так как заявлено, что система не требует настройки на диктора. Проводивший демонстрацию Дэвид Бригида (David Brigida) оказался человеком не столько технического, сколько менеджерского профиля и потому давал краткие и содержательные пояснения: например, что сегодня средний уровень ошибок распознавания оценивается где-то в 10%, чего вполне достаточно для подобных приложений. Как выяснилось, именно этот движок использован в англо-арабских разговорниках, которыми снабжают военных в Ираке. "Остановите, пожалуйста, машину!", "Вы выглядите не очень хорошо. Вы больны?" - эти не очень-то случайные фразы Дэвид сумел озвучить по-арабски, хоть и не всегда с первой попытки. А мое "трижды пять" в англо-арабском варианте сработало почему-то лучше, чем в англо-испанском.