Читать «Убийственные большие данные. Как математика превратилась в оружие массового поражения» онлайн - страница 4

Кэти О'Нил

Дело оказалось весьма запутанным. Школьный округ пригласил консалтинговую компанию Mathematica Policy Research (MPR) из Принстонского университета, чтобы она помогла разработать критерии оценки. Задачей MPR было оценить прогресс в образовании учеников округа, а затем подсчитать, в какой степени улучшение или ухудшение их результатов зависело от учителей. Задача, конечно, была непростой. Исследователи знали, что на результаты может повлиять множество факторов, от социально-экономической ситуации до специфических индивидуальных нарушений способности к обучению. Алгоритмы MPR должны были учитывать эти факторы, и это было одной из причин, по которой они оказались такими сложными.

И в самом деле, попытки вместить человеческое поведение, деятельность и потенциал в алгоритмы – это непростая работа. Чтобы понять, с чем пришлось столкнуться MPR, представьте себе десятилетнюю девочку, которая живет в бедном квартале на юго-востоке города Вашингтон. В конце учебного года она сдает стандартизированный тест для пятого класса. После этого ее жизнь продолжается. У нее могут появиться семейные или финансовые проблемы. Она может переехать в другой дом или переживать за брата, у которого возникли проблемы с законом. Она может страдать из-за собственного лишнего веса или бояться какого-нибудь школьного хулигана. В любом случае в следующем году она сдает еще один стандартизированный тест, теперь уже предназначенный для шестиклассников.

Если вы сравните результаты двух тестов девочки, количество набранных баллов должно остаться стабильным или, в лучшем случае, увеличиться. Но если она наберет меньше баллов, чем в прошлом году, будет очень просто увидеть разницу между ее результатами и результатами более успешных учеников.

Но насколько эта разница возникла по вине учителя? Сложно сказать, и модели MPR располагают лишь несколькими числами для сравнения. В компаниях Больших данных, таких как Google, напротив, исследователи проводят постоянные тесты и отслеживают тысячи переменных. Они могут изменить шрифт рекламного объявления с синего на красный, испытать каждую версию на десяти миллионах пользователей и отследить, на какую из версий пришлось больше кликов. Они используют этот отклик, чтобы оттачивать свои алгоритмы и их действия. И хотя у меня есть много претензий к Google (до этого мы еще доберемся), нельзя не признать, что такой тип тестирования – это эффективное использование статистики.

Попытка подсчитать, какое воздействие один человек может иметь на другого в течение учебного года, – гораздо более сложная задача. «Есть столько факторов, которые вмешиваются в процесс обучения, что проанализировать их крайне сложно», – говорит Высоцки. Более того, попытка оценить эффективность учителя, проанализировав результаты тестов всего лишь 25 или 30 учеников, статистически несостоятельна и просто смехотворна. Эти числа слишком малы, учитывая потенциальное количество вариантов, в которых «что-то пошло не так». В самом деле, если бы мы анализировали учителей со статистической тщательностью интернет-поисковика, нам пришлось бы привлечь для теста тысячи или даже миллионы случайно выбранных учеников. Специалисты по статистике оперируют большими числами, чтобы сбалансировать исключения и аномалии. (И ОМП, как мы увидим, зачастую наказывает тех, кто оказывается исключением.)