Читать «Код бестселлера» онлайн - страница 29

Мэттью Л. Джокерс

Проверка

Для каждой книги в нашей коллекции были вычислены процентные значения, указывающие на содержание в ней той или иной из 500 тем, попавших в наш список. Конечно, в некоторых книгах какие-то темы не появляются вообще – например, в «Коде да Винчи» нет ковбоев. Но для каждого текста мы получили диаграмму вроде той, что изображена на рис. 3. Эта диаграмма – для книги Джоди Пиколт «Последнее правило»: 23 % объема занимает тема, которую мы условно назвали «Дети и школа», 10 % – «Преступления», 7 % – «Судебные процессы и юридические вопросы», 6 % – «Домашние дела» и 2 % – «Близкие отношения».

Рис. 3. Основные темы романа Джоди Пиколт «Последнее правило»

После того как наш компьютер выделил основные темы, каталогизировал их и определил пропорцию каждой темы в каждой книге, мы обработали случайно выбранное подмножество результатов с помощью алгоритма машинного обучения, которому было заранее известно, какие книги в коллекции являются бестселлерами, а какие – нет. Используя эту информацию, программа подсчитала, какие темы и в каких пропорциях наиболее вероятно встретить в случайно выбранном бестселлере. Более того, эта же программа может определить, в использовании каких тем наиболее ярко проявляется различие между бестселлерами и небестселлерами.

Хороший пример – тема секса, о которой мы уже говорили раньше. В среднем она возникает в небестселлерах вдвое чаще, чем в бестселлерах. Компьютер способен уловить эту разницу и использовать полученные данные, чтобы спрогнозировать вероятность успеха доселе неизвестной рукописи. Согласно нашей модели, книга, в которой секс фигурирует почти в каждой главе, имеет мало шансов стать по-настоящему популярной. Конечно, из этого принципа есть исключения – трудно не заметить Сильвию Дэй или Э. Л. Джеймс, – но два автора не могут заметно повлиять на общие результаты исследования тысячи книг.

В конце концов наша компьютерная модель научилась на основании тематического профиля предсказывать с точностью 80 %, станет ли книга бестселлером. И когда мы спросили модель, каким авторам за последние 30 лет лучше всего удавалось (преднамеренно или инстинктивно) использовать нужные темы в правильной пропорции, компьютер назвал два имени: Джон Гришэм и Даниэла Стил. Это нас как громом поразило. Наша реакция была вызвана не столько мнением по поводу их творчества – на тот момент мы еще не слишком пристально изучили их тематический «геном», – сколько тем фактом, что наша модель смогла выявить двух самых успешных писателей в истории человечества. Из всех их произведений она выбрала несколько самых, на ее взгляд, перспективных. Среди книг Стил это оказались «Неожиданный роман», «Благословение» и «Жить дальше». У Гришэма – «Противники», «Юрист» и «Джо из Калико».