Читать «Красота в квадрате» онлайн - страница 30
Алекс Беллос
Слово
Ранг (порядковый номер)
Частота
I («я»)
10
2653
Say («сказать»)
100
265
Bag («сумка»)
1000
26
Orangefiery («оранжево-пламенный»)
10 000
2
Оказалось, что десятое по частоте употребления слово встречается в тексте почти в десять раз чаще, чем сотое, почти в сто раз чаще, чем тысячное, и почти в тысячу раз чаще, чем десятитысячное. Джеймс Джойс не выбирал слова с такой арифметической точностью специально; тем не менее закономерность, которой подчиняется их встречаемость в его книге, очевидна.
Если говорить языком математики, частота встречаемости слов в романе «Улисс» приближенно подчиняется следующему закону:
частота × ранг = 26 500
Эту формулу можно привести к такому виду:
В общем виде данное уравнение выглядит так:
Следовательно, частотность употребления того или иного слова обратно пропорциональна его рангу (порядковому номеру) в списке, упорядоченном по убыванию частоты. Другими словами, если ранг слова в
Изучив другие тексты, Ципф пришел к выводу, что во всех книгах на всех языках частота встречаемости слов и их порядковый номер в частотном списке находятся в обратной зависимости, но с небольшим уточнением:
Это уравнение известно как закон Ципфа. (Когда два числа записаны в форме
Ципф обнаружил, что значение константы
Я считаю закон Ципфа чрезвычайно увлекательным. Он раскрывает заманчиво простую математическую закономерность, определяющую выбор слов. Я решил выяснить, соблюдается ли этот закон в книге, которую вы сейчас читаете. Для подсчета частотности слов я воспользовался компьютерной программой, а не гуммированной бумагой и ножницами. Просматривая частотную таблицу, я увидел, что частота встречаемости слов действительно обратно пропорциональна их порядковому номеру в таблице. Самое распространенное слово, употребляемое мною в книге («the»), встречается в десять раз чаще, чем десятое по частоте слово «was», примерно в сто раз чаще, чем сотое по частоте слово «who», и в тысячу раз чаще, чем тысячное слово «spirals».
Когда я составил на основе данных о частоте и ранге слов график (первый график, представленный ниже), оказалось, что соответствующие точки лежат близко к координатным осям. График, отображающий обратно пропорциональную зависимость, всегда представляет собой L-образную кривую. Сначала кривая резко снижается, а затем быстро выравнивается и переходит в своего рода «длинный хвост». Это говорит о том, что одни слова встречаются в тексте в огромном количестве, а другие почти не используются. (На самом деле во всех текстах, независимо от их объема, около 50 процентов слов употребляются только один раз. В данной книге таких слов 51 процент [8].)