Читать «Красота в квадрате» онлайн - страница 30

Алекс Беллос

Слово

Ранг (порядковый номер)

Частота

I («я»)

10

2653

Say («сказать»)

100

265

Bag («сумка»)

1000

26

Orangefiery («оранжево-пламенный»)

10 000

2

Оказалось, что десятое по частоте употребления слово встречается в тексте почти в десять раз чаще, чем сотое, почти в сто раз чаще, чем тысячное, и почти в тысячу раз чаще, чем десятитысячное. Джеймс Джойс не выбирал слова с такой арифметической точностью специально; тем не менее закономерность, которой подчиняется их встречаемость в его книге, очевидна.

Если говорить языком математики, частота встречаемости слов в романе «Улисс» приближенно подчиняется следующему закону:

частота × ранг = 26 500

Эту формулу можно привести к такому виду:

В общем виде данное уравнение выглядит так:

Следовательно, частотность употребления того или иного слова обратно пропорциональна его рангу (порядковому номеру) в списке, упорядоченном по убыванию частоты. Другими словами, если ранг слова в n раз больше, то частота его использования в n раз меньше.

Изучив другие тексты, Ципф пришел к выводу, что во всех книгах на всех языках частота встречаемости слов и их порядковый номер в частотном списке находятся в обратной зависимости, но с небольшим уточнением:

Это уравнение известно как закон Ципфа. (Когда два числа записаны в форме xy, мы говорим «x в степени y», и это значит, что число x умножается само на себя y раз. Как мы знаем со школьных лет, 42 = 4 × 4, а 23 = 2 × 2 × 2. Однако число y может быть не только целым числом. Следовательно, 21,5 означает, что число 2 умножается само на себя 1,5 раза, а это равно 2,83. Чем ближе значение числа y к 1, тем ближе xy к числу x.)

Ципф обнаружил, что значение константы a всегда стремится к 1 независимо от того, кто автор книги и каково ее содержание. То есть зависимость между частотой встречаемости слов и их рангом всегда очень близка к обратно пропорциональной зависимости. В случае романа «Улисс» значение a равно 1.

Я считаю закон Ципфа чрезвычайно увлекательным. Он раскрывает заманчиво простую математическую закономерность, определяющую выбор слов. Я решил выяснить, соблюдается ли этот закон в книге, которую вы сейчас читаете. Для подсчета частотности слов я воспользовался компьютерной программой, а не гуммированной бумагой и ножницами. Просматривая частотную таблицу, я увидел, что частота встречаемости слов действительно обратно пропорциональна их порядковому номеру в таблице. Самое распространенное слово, употребляемое мною в книге («the»), встречается в десять раз чаще, чем десятое по частоте слово «was», примерно в сто раз чаще, чем сотое по частоте слово «who», и в тысячу раз чаще, чем тысячное слово «spirals».

Когда я составил на основе данных о частоте и ранге слов график (первый график, представленный ниже), оказалось, что соответствующие точки лежат близко к координатным осям. График, отображающий обратно пропорциональную зависимость, всегда представляет собой L-образную кривую. Сначала кривая резко снижается, а затем быстро выравнивается и переходит в своего рода «длинный хвост». Это говорит о том, что одни слова встречаются в тексте в огромном количестве, а другие почти не используются. (На самом деле во всех текстах, независимо от их объема, около 50 процентов слов употребляются только один раз. В данной книге таких слов 51 процент [8].)