Читать «Код бестселлера» онлайн - страница 25
Мэттью Л. Джокерс
Рис. 1
Эта тема посвящена барам – не единицам измерения, а заведениям, куда заходят выпить рюмочку. Значение этого слова вполне прозрачно. На нашей визуализации в виде облака слова изображены шрифтом разного размера: чем крупнее шрифт, тем чаще это слово попадается рядом со словом «бар». Это очень логично. Слова, непосредственно окружающие центральное слово «бар», – «бармен», «выпить», «виски», «пиво» – дают нам уверенность в том, что если компьютер нашел все эти слова в пределах одной-двух страниц, то действие разворачивается в обычном местном баре.
Не все темы, обнаруженные компьютером, так легко интерпретировать. Иногда требуются познания в литературе и дар рассуждения. Время от времени приходится распознавать необычный язык, сконструированный автором фантастической саги, или малоизвестный диалект. Если тема составлена из таких слов, как аск, уолл на уолл, боллзы и амбрелла, вы будете долго напрягать брейнз, пока не догадаетесь, что все это – сленг из романа Энтони Берджесса «Заводной апельсин». Однако гораздо чаще тематическое облако выглядит примерно как на нашем рис. 2.
Рис. 2
Такие существительные, как глаза, рот, рука, голова, говорят о том, что тема имеет какое-то отношение к телу. Однако просто тело – недостаточно конкретное название. Тело может фигурировать, например, в описании сцены убийства, но это явно не наш случай. Образующие контекст слова на самом краю облака – поцелуи, наслаждение, улыбка, дыхание, постель, ритм, жар – указывают на то, что эта группа существительных описывает любовную сцену. Но это тоже слишком общее выражение. Любовные сцены бывают разные. Большинство писателей утверждает, что правильно описать секс – нелегкая задача, за которую они берутся безо всякого удовольствия. Каждый автор решает ее по-своему, с большим или меньшим успехом. В данном случае нужно заметить, что выбор слов указывает на довольно сдержанный стиль писателя – он явно не злоупотребляет грубостью или откровенностью. Словесные облака, созданные из описаний любовных сцен, показывают, что эти описания сильно различаются: от таких, которые можно не смущаясь читать вслух собственной бабушке, – до таких, какие выдержит лишь закаленный читатель.
Благодаря алгоритму моделирования тем мы получаем два важных результата. Во-первых, компьютер сообщает, какие темы есть в нашем корпусе текстов (в том числе – какие слова составляют каждую из них; примеры мы только что видели в словесных облаках слов «бар» и «тело»). Во-вторых, компьютер определяет долю содержания каждой темы в каждой книге. Мы задали список из пятисот возможных тем, так что вариации тематического состава могут быть огромны. Узнав эти пропорции, мы можем начать поиск закономерностей, типичных для бестселлеров. Это нечто вроде обратного конструирования. Возьмем в качестве метафоры тарелку супа. Компьютер сначала делит его на составляющие – мясо, бульон, капуста, лук, специи, – а затем тщательно измеряет количество каждого ингредиента.