Читать «Цифровой журнал «Компьютерра» № 38» онлайн - страница 61
Коллектив авторов
Пока не погаснет солнце и не кончатся лучины.
Голубятня-Онлайн
Голубятня: Ась?
Читатели со стажем не дадут соврать: о системах распознания речи (VRS, Voice Recognition Systems) я писал регулярно, начиная с самой первой статьи, опубликованной в бумажной «Компьютерре» аж в 1996 году! Я делился, помнится, впечатлениями о чуде из чудес компьютерных технологий — программе Dragon Dictate. Вот этот исторический текст, отдаленный от нас во времени почти как полет американцев на Луну (от меня, по крайней мере, и от моих воспоминаний об Америке):
"Наблюдение за Бобом в офисе неизбежно рождало чувство приобщенности к XXI веку. Обставленный компьютерами и мониторами, Боб принимал и отсылал электронную почту, издавал резолюции и созывал собрания совета директоров — и все это без помощи клавиатуры: команды он подавал через микрофон благодаря программе Dragon Dictate. Зрелище просто феерическое! Иное дело — абсолютная сырость самой Dragon Dictate, которая не распознавала каждые три слова из четырех. Бобу приходилось постоянно отвлекаться и вносить изменения в словарный запас программы, причем для этого необходимо было произнести магическое слово"Oops" . В этом случае Dragon Dictate переключается в командный режим и позволяет делать исправления. Я сидел рядом и, закрыв глаза, слушал волшебную музыку очарования технологией: «Упс... упс... упс... упс!»
Но мистер Старер не был бы тем, кем он является на самом деле, — одним из тысячи самых богатых людей Соединенных Штатов (согласно журналу «Fortune»), — если бы не умел вовремя контролировать свои эмоции. После часа ритуальных утренних «упс»-заклинаний он снимал наушники, потягивался и принимался за настоящее дело — подписывал горы бумажных документов, звонил по телефону, летел за пятьсот миль на собственном реактивном самолете на встречи с деловым партнерами и потенциальными клиентами, которые, хоть и не ведали об очаровании технологией, однако обладали просто чудовищным финансово-материальным потенциалом".
Что ж, прошло 15 лет. За это время я предпринимал несколько попыток свериться со свежими достижениями в области распознания речи, однако всякий раз в совершенно конфузном состоянии закрывал тему, покрывая эти самые «достижения» конфузной фигурой умолчания. Отчего так? Оттого, что за 15 лет прогресс нулевой. Именно так — читайте по слогам: ну-ле-вой! Никакой!
Для аналогии приведу еще одну перспективнейшую сферу soft-hard решений, которая топчется на месте те же 15 лет: синтез речи (TTS — Text-To-Speech Engines). О нем я тоже писал миллионократно — при всяком очередном всполохе надежд: то какие-то белорусские товарищи (Sakrament) грозились не сегодня-завтра создать чудо-движок для русской речи, то объявлялась какая-то загадочная якобы 22-килогерцовая «Катя» (ScanSoft RealSpeak Katerina 22Khz), которая на поверку оказывалась чистой воды аберрацией разума (размер TTS 45 мегабайт, тогда как «всего лишь» 16-килогерцовый английский движок AT&T Natural Voices занимает 600 мегов и при этом звучит на фоне русской «Кати» как бог).