Читать «Беседы о бионике» онлайн - страница 285

Изот Борисович Литинецкий

А вот Л. А. Чистович, А. В. Кожевников и другие сотрудники Института физиологии имени И. П. Павлова считают, "...что фонемы не представлены в акустическом потоке непосредственным образом и в процессе восприятия речи переход от акустического сигнала к символам фонем осуществляется иным, более сложным способом, чем это предполагает гипотеза пофонемного распознавания". Исследования Л. А. Чистович и В. А. Кожевникова показывают, что наша речь разбивается совсем не на фонемы, как это представляется многим. Письмо дробится на буквы, поэтому и в устной речи понятия, слова мы привыкли связывать с серией отдельных звуков. Но внутренняя организация устной речи другая: она разбивается не на фонемы, а на слоги. Человек принимает решение о предыдущей фонеме только после анализа последующего звука, т. е. он должен проанализировать весь слог.

Так как "...слог является той минимальной единицей, на уровне которой возможен переход от акустического сигнала к смыслоразличительным элементам языка", Л. А. Чистович и В. А. Кожевников пытаются организовать понимание машинами слов, или, как говорят, "распознавание образов речи", исходя из нового принципа. Они считают, что для машины различительными единицами должны были бы служить слоги. Тогда весь непрерывный поток устной речи можно разбить на слоговые группы и обрабатывать их, основываясь на звуках, которыми заканчиваются слоги. Как только начат переход к другому слогу, машина приступает к обработке данных о предыдущем, а затем передает полученные результаты в устройство памяти или на выход.

Быть может, следует идти по пути создания устройств, автоматически распознающих целые слова и фразы? О распознавании фраз речь может идти только в очень узком понимании: распознавание некоторых команд. Такой путь опознавания образа целого сообщения, по мнению ряда ученых, вполне себя оправдывает в том случае, когда дело идет об автоматизированном распознавании ограниченного набора (до нескольких десятков) команд, состоящих из одного-двух слов. Однако при переходе от ограниченного набора сообщений к общему случаю, когда число возможных речевых сообщений можно принять равным, например, числу осмысленных предложений на данном языке, рассматриваемый путь опознавания образа каждого отдельного сообщения, по мнению В. А. Кожевникова и Л. А. Чистович, явно не рационален. И действительно, для того чтобы хранить в памяти образы всех возможных предложений, распознающему устройству понадобился бы совершенно невероятный объем памяти. Как показывают произведенные Миллером, Галантером и Прибрамом расчеты, для того чтобы хотя бы один раз прослушать все грамматически возможные английские фразы длиной до 20 слов, человеку пришлось бы слушать примерно по 3 o 1020 фраз в секунду в течение 100 лет без перерывов!

Что касается обучения машин распознаванию целых слов, то сторонники фонемного метода рассуждают так. Каждый человек, говорящий по-русски, использует для передачи сообщений около 40 основных звуков-фонем и примерно 10 000 слов. Так что же легче — научить машину различать 40 фонем или десятки тысяч слов? "Как показывает опыт, — говорят специалисты, — идентифицировать фонемы трудно, но все же это единственно разумное решение".