Читать «Убийственные большие данные. Как математика превратилась в оружие массового поражения» онлайн - страница 11
Кэти О'Нил
Ответы на все эти вопросы смешаны и объединены в математические модели этого спорта. В мире бейсбола существуют параллельные вселенные, и каждая из них представляет собой сложное вероятностное полотно. Они включат в себя каждое измеримое отношение между каждым спортивным компонентом, от уоков и хоум-ранов и до самих игроков. Цель модели – просчитать разные сценарии на каждой развилке и найти оптимальные комбинации. Если Yankees поставят питчера-правшу против сильного отбивающего Майка Траута из Angels, в сравнении с их текущим питчером – кто с большой вероятностью его выбьет? И как это повлияет на общую вероятность победы?
Бейсбол – идеальная база для предиктивного математического моделирования. Как писал Майкл Льюис в своем бестселлере Moneyball (2003), этот спорт привлекал самых увлеченных аналитиков данных на протяжении всей его истории. В прошлом фанаты изучали статистику по оборотным сторонам бейсбольных карточек, анализируя закономерности хоум-ранов Карла Ястржемски или сравнивая общее количество страйк-аутов Роджера Клеменса и Дуайта Гудена. Но начиная с 1980-х годов за дело взялись серьезные специалисты по статистике – они начали разбираться, что же, собственно, означают все эти цифры вместе с огромным количеством новых данных: как именно они конвертируются в победы и как руководство команды может достичь максимального успеха при минимальных вложениях.
Сегодня термин moneyball («денежный мяч») служит условным обозначением любого статистического подхода в областях, где в течение долгого времени господствовала исключительно интуиция. Но пример бейсбола – это пример здорового анализа, который я привела для контраста с более токсичными примерами анализа, которые я считаю действием ОМП и которые появляются во все большем количестве областей нашей жизни. Бейсбольные модели справедливы, в частности, из-за своей прозрачности. Любой человек располагает доступом к статистике и может более или менее понять, как она интерпретируется. Да, конечно, модель одной команды может придавать больше ценности хоум-раннерам, в то время как другие могут их слегка недооценивать из-за того, что сильные отбивающие имеют тенденцию к большому количеству страйк-аутов. Но в любом случае информация о числе хоум-ранов и страйк-аутов доступна для всех интересующихся.
Кроме того, в бейсболе есть статистическая строгость. Его гуру располагают огромным количеством информации, и практически вся она напрямую касается манеры игроков. Более того, эта информация имеет непосредственное отношение к результатам, которые эти гуру пытаются предсказать. Это может показаться очевидным, но, как мы увидим на страницах этой книги, люди, создающие оружие математического поражения, испытывают постоянный дефицит информации как раз о тех типах поведения, которые их больше всего интересуют. В результате они подставляют вместо информации ее подмену (прокси). Они проводят статистические корреляции между чьим-то почтовым кодом или манерой речи и способностью этого человека выплатить кредит или справиться с рабочими обязанностями. Эти корреляции дискриминационны, а некоторые из них и незаконны. Бейсбольные модели по большей части не используют прокси из-за того, что они располагают фактической информацией: мячами, страйками и хитами.