Читать «Одна формула и весь мир» онлайн - страница 25

Евгений Александрович Седов

В реальных текстах средняя длина слова составляет примерно 6 букв. Это значит, что в реальных текстах интервал встречается примерно в 5 раз чаще, чем в нашем эксперименте. Значит, его вероятность для реального текста составляет не 1/32, а 5/32= 1/6=0,17.

Так же обстоит дело и с остальными буквами вероятность их появления в реальных текстах значительно отличается от 1/32.

Для определения реальных значений вероятностей появления букв в письменных текстах фиксировали частоту появления каждой буквы на протяжении сотен и тысяч страниц.

В результате такого учета было установлено, что чаще всего в русских текстах появляется буква «О»  (ро = 0,09), а реже всего буква «Ф» (рф = 0,002) .

**Сравните с вероятностью появления тех же букв в описанном эксперименте:Ро=Рф=1/32= 0,03

 Чаще, чем буква «О» и другие буквы, появляются в русских текстах интервалы между словами. Их вероятность составляет ринтервала = 0,17.

Благодаря тому, что вероятности появления различных букв в реальных текстах неодинаковы, их энтропия (беспорядочность) меньше, чем в экспериментальном, искусственном тексте. Реальные тексты отличаются от энтропийного определенным порядком чередования букв.

Чтобы уяснить, как возникает порядок, попытаемся составить текст, в котором соблюдались бы реальные вероятности появления букв. Для этого нам придется вновь поместить карточки с буквами в общую коробку, но теперь понадобится не 32 карточки, а значительно больше, потому что число карточек должно быть пропорционально вероятностям появления букв (например, на две карточки с буквой «Ф», имеющей вероятность рф =0,002, должно приходиться 90 карточек с буквой «О», имеющей вероятность Ро =0,09 и т. д.).

Впрочем, можно не тратить времени на приготовление множества карточек с буквами. Тот же эксперимент можно проделать без карточек, используя обычный печатный текст. Ведь в тексте каждая буква будет встречаться именно с той частотой, которая соответствует ее вероятности.

Если, закрыв глаза, наугад переворачивать страницы и указывать на букву, а затем приписывать ее к ряду ранее таким же образом отобранных букв, то вы получите новый искусственный текст, в котором частота появления букв будет соответствовать вероятности их появления в русском тексте. Действуя таким образом, Р. Л. Добрушин получил фразу, помещенную в нижеприведенной таблице под номером 2.

НОМЕР ФРАЗЫ Фраза УСЛОВИЕ ПОЛУЧЕНИЯ ФРАЗЫ 1 СУХЕРРОБЬДЩ ЯЫХВЩИ-ЮАЙЖТЛФВНЗАГФО-ЕНВШТЦР ПХГБКУЧТЖЮ-РЯПЧЬЙХРЫС Принято условие равной вероятности всех букв алфавита и интервала между словами 2 ЕЫНТ ЦИЯЬА ОЕРВ ОДНГ ЬУЕМЛОЛПКЗБЯ ЕВНТША Учтены вероятности отдельных букв в русском тексте 3 ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО Учтены вероятности 4-буквенных сочетаний в русском тексте