Читать «Красота в квадрате» онлайн - страница 31

Алекс Беллос

Распределение частотности слов в книге «Алекс в Зазеркалье»

На нижнем графике отображены те же данные, но изменен масштаб. Расстояние от 1 до 10, от 10 до 100 и от 100 до 1000 теперь одинаковое на обеих осях, другими словами, мы имеем двойной логарифмический масштаб. График, напоминающий провисший кабель, как по волшебству превратился в туго натянутую струну. Появился некий математический порядок: точки графика образуют почти идеальную прямую.

Прямая линия на графике, построенном в двойном логарифмическом масштабе, — доказательство того, что эти данные подчиняются закону Ципфа (в Приложении 2 я объясню почему). С математической точки зрения прямая линия более полезна, чем кривая с длинным хвостом, поскольку ее свойства легче анализировать. В частности, у прямой есть постоянный градиент. Мы вернемся к понятию градиента немного позже, а пока вам нужно знать только то, что градиент — это степень наклона: отношение расстояния, покрытого прямой по вертикали, к расстоянию по горизонтали. Если нарисовать линию наилучшего соответствия и определить ее градиент, он и будет представлять собой константу a в уравнении закона Ципфа. Я рассчитал градиент линии на расположенном выше графике. Он чуть больше единицы, а это значит, что по сравнению с Джеймсом Джойсом я чаще использую самые распространенные слова и реже — наименее распространенные.

При более близком рассмотрении не все точки на графике попадают на прямую линию. Некоторые отклоняются от нее, особенно примерно двадцать слов, встречающихся в тексте чаще всего. Однако в большинстве случаев точки находятся очень близко к этой линии. Поразительно то, что порядковый номер подавляющего количества слов в этой книге позволяет достаточно точно определить частоту их использования, и наоборот.

Профессор Ципф обнаружил такую же обратно пропорциональную зависимость еще в одной книге — книге переписи населения США 1940 года. Однако в этот раз он подсчитывал не частотность слов, а численность населения крупных американских городов.

Муниципальный район

Ранг

Население

Нью-Йорк / северо-восток Нью-Джерси

1

12 миллионов

Кливленд

10

1,2 миллиона

Гамильтон/Мидлтаун

100

0,11 миллиона

В это трудно поверить, но и здесь прослеживается та же закономерность. В Нью-Йорке (самом крупном городе США) численность населения в десять раз больше, чем в Кливленде (десятом по величине городе), и в сто раз больше, чем в Гамильтоне (сотом по величине городе). Никто не предлагал американцам расселяться с такой точностью. Тем не менее их выбор подчинялся строгой закономерности. Это происходит и сейчас. На самом деле все мы поступаем именно так. На представленных ниже графиках в двойном логарифмическом масштабе отображены данные о численности населения американских городов и их ранге (порядковом номере), взятые из отчетов о переписи населения США 2000 года, а также данные о численности населения крупнейших городов мира.