Читать «Другому как понять тебя?» онлайн - страница 10

Виталий Иванович Батов

На рис. 1 приведены примеры лингвистических спектров ряда произведений современных Морозову русских писателей. При обработке текстов Морозов отсчитывал (исключая эпиграфы или вводные цитаты из иностранных авторов) первую тысячу слов. Наиболее часто повторяющимися оказались у всех исследованных авторов предлоги «в», «на» и «с», поэтому их графики Морозов и назвал «главным предложным спектром».

Повышение надежности метода и достоверности результатов достигается, во-первых, за счет увеличения объема текста, то есть числа языковых единиц, входящих в один спектр, и, во-вторых, за счет увеличения числа самих спектров. В конечном итоге и первое и второе требование выполняется при увеличении объема исследуемого текста.

Метод Морозова остался бы действующим рабочим инструментом литературоведов и по сей день, если бы не одно обстоятельство: все показатели этого метода зависят от объема анализируемого текста, а сам автор не определил границу объема, за которой надежность метода не подлежит сомнению. Дело в том, что показатели частоты употребления отдельных языковых элементов, полученные на текстах, скажем, в сто словоформ, могут различаться даже у одного автора, а весь метод строится на близости значений этих показателей. И только в достаточно больших текстах — порядка нескольких тысяч словоформ — показатели частоты стабилизируются и становятся пригодными для сравнения текстов разных авторов.

Ответ на вопрос о минимально необходимом объеме текста, достаточном для установления авторства, дал польский исследователь Е. Ворончак в работе, посвященной математико-статистическому анализу устойчивости различных показателей, используемых в настоящее время в исследованиях языка и стиля произведения. Он приходит к выводу, что границей объема текста (ниже которой результаты недостоверны, а выше — достоверны) является пять тысяч словоформ. Но проблема надежности методов, основанных на использовании частотных показателей, все же остается, так как в литературоведческой практике основной массив анонимной литературы состоит из текстов, гораздо меньших по объему (среди анонимных текстов наиболее часто встречаются письма, полемические статьи, черновые фрагменты произведений, т. е. тексты, не всегда превышающие и тысячу словоформ). Непригодность частотных расчетов для атрибуции коротких текстов заставляет изменить направление поиска надежных показателей. Одно из новых направлений в решении проблемы авторства

психолингвистика плюс математика.

Итак, необходимо найти такие показатели языкового своеобразия произведения, которые бы, во-первых, отражали индивидуальный стиль автора и, во-вторых, могли бы быть использованы при анализе текстов объемом меньше тысячи словоформ. Как мы уже выяснили, первое требование выполняется при использовании частотных показателей употребительности различных частей речи, но эти показатели не удовлетворяют второму требованию. Необходимо как-то понизить их случайный разброс в текстах небольшого объема. Pi здесь приходят на помощь достижения такой научной дисциплины, как психолингвистика. Эта сравнительно новая пограничная дисциплина занимается изучением процессов порождения и восприятия речи человеком.