Читать «Код бестселлера» онлайн - страница 16
Мэттью Л. Джокерс
В конце концов мы отфильтровали свой список параметров, оставив от 20 тысяч примерно 2800, которые помогают отличить популярные у читателей книги от предназначенных для – будем честны – узкой читательской ниши. Сначала мы научили компьютеры читать книги и извлекать из них нужные данные, а затем проанализировали эти данные, используя другой набор компьютерных программ – для обнаружения и исследования скрытых закономерностей. В этой фазе анализа мы использовали процесс, весьма метко называемый машинным обучением. При анализе текстов бывает нужно сортировать или классифицировать их по сходству и различию. Например, мы хотим отличать спам от обычных сообщений в электронной почте. Поскольку у спамерских посланий много общего – искаженное написание слов, частое упоминание виагры и т. д., – можно написать программу, которая будет определять, с какой вероятностью данное сообщение окажется спамом. Сортировка романов на бестселлеры и небестселлеры очень похожа на действия, выполняемые спам-фильтром в электронной почте. Допустим, у нас есть новая книга, которую мы видим в первый раз, и мы хотим понять, может ли она стать бестселлером. Если у нас уже есть куча бестселлеров («не спам») и куча книг, которые бестселлерами не стали («спам»), мы можем ввести их все в компьютер и научить его отличать книги одной категории от другой по определенным параметрам. Именно так мы и поступили. Более того, мы проделали это тремя разными способами, усреднили результаты и обнаружили, что в 80 % случаев наша система правильно определяла, какой текст из нашего корпуса – бестселлер, а какой – нет.
Этот средний показатель 80 % означает, что, если взять наугад из недавно опубликованных книг 50 бестселлеров и 50 так и не ставших ими, наш компьютер правильно классифицирует 40 бестселлеров и 40 небестселлеров. Конечно, это значит также, что компьютер сочтет 10 бестселлеров провальными, а 10 небестселлерам напророчит блестящий успех. В проведенной нами серии тестов компьютер, в частности, был абсолютно уверен, что «Гордость и предубеждение и зомби» не будет иметь успеха, – и ошибся. Конечно, «Гордость и предубеждение и зомби» вышла тогда, когда любая отсылка к Джейн Остин гарантировала книге внимание читателей, а в кинотеатрах пачками шли фильмы про зомби. Но в данном случае контекст оказал непропорционально большое влияние на уровень продаж.
Конечно, были еще и небестселлеры, которые наш компьютер превознес до небес, но это отдельная история.
Договор
Обсуждая новые романы, мы, авторы этой книги, часто говорим об отношениях читателя и автора так, будто существует некий неписаный договор – детали его туманны, но тем не менее он описывает эстетические, эмоциональные, интеллектуальные и даже этические причины, стоящие за выбором читателя. Обучая свою модель распознавать тему, сюжет, стиль и характеристики персонажей, мы много думали о том, чего ждет читатель от книги.