Читать «Популярная информатика» онлайн - страница 36

Николай Николаевич Чурсин

Упорядоченность задается ранжированием (порядком размещения) наименований элементов по частоте их появления в порядке ее убывания. Такая упорядоченная совокупность наименований элементов называется ранговым распределением. Распределения, которые в свое время изучал Ципф, — это типичные примеры ранговых распределений. Оказалось, что вид рангового распределения, его строение характеризуют ту совокупность документов, к которой относится данное ранговое распределение. Выяснилось, что при построении ранговые распределения в большинстве случаев имеют форму закономерности Ципфа с поправкой Мандельброта:

fr γ = c.

При этом коэффициент γ — величина переменная. Постоянство коэффициента γ сохраняется только на среднем участке графика распределения. Этот участок принимает форму прямой, если график вышеприведенной закономерности построить в логарифмических координатах. Участок распределения с γ = const называется центральной зоной рангового распределения (значение аргумента на этом участке изменяется от Inr1, до Inr2). Значениям аргумента от 0 до Inr1 соответствует зона ядра рангового распределения, а значениям аргумента от Inr2 до Inr3 — так называемая зона усечения.

Какой же смысл заложен в существовании трех явно различаемых зон ранговых распределений? Если последнее относится к терминам, составляющим какую-либо область знании, то ядерная зона, или зона ядра рангового распределения, содержит наиболее общеупотребительные, общенаучные термины. Центральная зона содержит термины, наиболее характерные для данной области знаний, которые в совокупности выражают ее специфичность, отличие от других наук, «охватывают ее основное содержание». В зоне усечения же сосредоточены термины, сравнительно редко употребляющиеся в данной области знаний.

Таким образом, основа лексики какой-либо области знаний сосредоточена в центральной зоне рангового распределения. При помощи терминов ядерной зоны эта область знаний «стыкуется с более общими областями знаний», а зона усечения играет роль авангарда, как бы «нащупывающего» связи с другими отраслями науки. Так, если несколько лет назад в ранговом распределении терминов тематической области «Обработка металлов» встретился бы термин «лазеры», то ввиду его низкой встречаемости он, наверняка, попал бы именно в зону усечения: связи между лазерной техникой и обработкой металлов еще только «нащупывались». Однако сегодня этот термин, без сомнения, попал бы в центральную зону, что отразило бы уже его достаточно высокую встречаемость и, следовательно, устойчивую связь лазерной техники с обработкой металлов.