Читать «Максимальный репост. Как соцсети заставляют нас верить фейковым новостям» онлайн - страница 75

Борислав Козловский

Дано: список пассажиров и экипажа «Титаника», где 1502 из 2224 человек на борту погибли в день столкновения корабля с айсбергом, 15 апреля 1912 года. Подробности про каждого второго из них – пол, возраст, порт отправления, где и за какие деньги куплен билет, первым классом плыл или третьим, сколько членов семьи было на борту – собраны в таблицу.

Предсказать: кто утонет, а кто выживет, основываясь только на данных из таблицы. Психологические портреты, воспоминания современников и дневники, которые могли бы что-нибудь объяснить про мотивы спасшихся и рассказать конкретную историю спасения, использовать, конечно, нельзя. Все выводы нужно делать на основе голых анкетных характеристик.

Это учебная задача на сайте Kaggle.com, с которого часто начинается карьера разработчиков искусственного интеллекта. Обычно сюда приходят решать задачи за деньги – участвовать в конкурсах с призовым фондом в десятки или сотни тысяч долларов. Крупные компании, от банков до медицинских клиник и трубопрокатных заводов, выкладывают порции своих больших данных и предлагают придумать алгоритм, который сделает из них какие-нибудь полезные выводы. Например, случится ли поломка на конвейере, есть ли на рентгеновском снимке указания на рак, и стоит ли выдавать человеку кредит. В каждом таком конкурсе соревнуются сотни, а иногда и тысячи команд программистов и программистов-одиночек. Те, кто войдет в первую тройку, разделят между собой призовые деньги, а люди из первой десятки могут быть уверены, что в ближайшие дни после оглашения результатов им напишут рекрутеры крупных компаний, работающих с данными.

Что общего у таких практических задач с вопросом о жизни и смерти пассажиров «Титаника»? С математической точки зрения они ничем не отличаются. Есть таблица, где для каждого человека записаны какие-то его признаки, а напротив части записей стоит пометка «да» или «нет» (вернул кредит или не вернул, пережил кораблекрушение или не пережил). Алгоритм должен увидеть скрытые закономерности в примерах и научиться угадывать «да» или «нет» как можно чаще.

Можно сказать, что и алгоритмы Facebook решают задачу того же сорта. Вот два человека и разные характеристики конкретной записи их дружбы в цифрах – сколько комментариев они написали друг другу за месяц, лайкает ли первый второго, часто ли оба одновременно ставят галочку «пойду» на страничке какого-нибудь концерта – и нужен однозначный ответ, показывать одному свежую запись другого или не показывать. Искусственному интеллекту достаточно сказать «да» или «нет».

К слову, на сайте Kaggle – да и вообще среди тех, кто обучает алгоритмы, – словосочетание «искусственный интеллект» не слишком популярно. Вместо него предпочитают употреблять термин «машинное обучение». (Если вы заявляли в 1990-е, что занимаетесь «искусственным интеллектом», объяснял кто-то из классиков этой науки, вас автоматически записывали в философы или футурологи, которые любят поговорить об отвлеченных сущностях, и математики стали говорить про «машинное обучение», чтобы их с футурологами не путали.)