Читать «Критическая масса, как одни явления порождают другие» онлайн - страница 373

Филипп Болл

Это можно смоделировать в стиле турниров Аксельрода, включив в правила эволюционную составляющую. Например, после каждой игры мы могли бы позволять игрокам выбирать новую стратегию, причем вероятность выбора каждой стратегии должна быть пропорциональна полному числу очков, набранных соответствующими программами в ходе турнира При таком подходе успешные стратегии распространялись бы, а проигрышные — исчезали. Легко заметить, что это не что иное, как дарвиновский принцип «выживания самого приспособленного». Примерно таким образом происходит эволюция при генетических мутациях внутри популяции, в результате которых наиболее приспособленные дают большее потомство, закрепляя преимущество «адаптивной» мутации.

Такой эксперимент в рамках теории игр осуществили Мартин Новак (Оксфордский университет) и Карл Зигмунд (Венский университет) в 1992 году, получив очень интересные результаты. Они изучили поведение целой «популяции» стратегий поведения, каждая из которых делала выбор между сотрудничеством и обманом на основании поведения партнера в предыдущем раунде. Одни стратегии были ориентированы преимущественно на сотрудничество, другие — преимущественно на обман. Новак и Зигмунд заставили их сражаться друг с другом, изменяя их соотношение в зависимости от достигнутых результатов.

Можно было ожидать, что править балом будет стратегия TFT, наиболее успешно выступающая в смешанных группах стратегий. Однако в первых

Рис. 18.1. Процесс «естественного отбора» в смешанной популяции стратегий игры в «Дилемму заключенного». Отбор осуществляется по результатам соревнования в каждом туре. В начале процесса явным преимуществом обладают программы, настроенные на обман, но затем происходит резкий поворот к сотрудничеству в духе стратегии TFT, которая быстро становится доминирующей. Этот процесс сопровождается повышением среднего выигрыша, поскольку стратегия TFT значительно повышает уровень сотрудничества между участниками соревнования.

турах ситуация выглядела диаметрально противоположной, так как побеждали программы-обманщицы, а склонные к сотрудничеству стратегии почти вымирали. Средний выигрыш опускался до уровня, соответствующего взаимному обману. Но затем на каком-то этапе в общем поведении системы жалкие остатки приверженцев стратегии TFT вдруг начинали быстро нарастать, приобретая доминирующее положение (рис. 18.1). Сотрудничество становилось наиболее распространенной формой взаимодействия, а средний выигрыш резко увеличивался.

Неожиданные и резкие изменения в поведении системы вновь заставляют вспомнить о фазовых переходах, хотя, конечно, не может быть и речи об эквивалентности описываемых процессов. Усиление роли стратегии TFT означает некий коллективный эффект, возникающий в результате множества взаимодействий между агентами, в качестве которых выступают отдельные программы. Игроки, настроенные на обман, действительно побеждают в начале соревнования, но затем их жесткое уклонение от сотрудничества перестает приносить пользу, так как они сталкиваются с очень похожими на самих себя соперниками. Сохранившиеся в системе даже немногочисленные остатки программ со стратегией TFT в таких условиях получают неожиданное преимущество и выигрывают. Они играют роль зародышей, позволяющих распространить элементы сотрудничества на всю популяцию145.