Теория игр. Искусство стратегического мышления в бизнесе и жизни
Шрифт:
Предположим, Флад и Дрешер разыгрывают стратегию равноценных ответных действий. Поначалу ни один из них не идет на предательство, поэтому какое-то время все складывается хорошо. Затем, скажем, в 11-м раунде игры Флад по ошибке выбирает стратегию «предать» или останавливается на стратегии «сотрудничать», но Дрешер по ошибке считает, что Флад выбрал предательство. В любом случае Дрешер выберет в 12-м раунде ход «предать», но Флад выберет стратегию «сотрудничать», поскольку Дрешер выбрал сотрудничество в 11-м раунде. В 13-м раунде они поменяются ролями. Ситуация, когда один из игроков выберет сотрудничество, а другой – предательство, будет повторяться снова и снова до тех пор, пока очередная ошибка или заблуждение не восстановят сотрудничество между соперниками или не заставят каждого из них выбрать предательство.
Такие циклы или ответные удары часто наблюдаются во время реальных конфликтов между израильтянами и арабами на Ближнем Востоке, или между католиками и протестантами в Северной Ирландии, или между индусами и мусульманами в Индии. На границе между штатами Западная Вирджиния и Кентукки шла памятная вражда между Хэтфилдами
Да из-за чего же вышла ссора, Бак? Из-за земли?
– Я не знаю. Может быть.
– Ну а кто же первый стрелял? Грэнджерфорд или Шепердсон?
– Господи, ну почем я знаю! Ведь это так давно было.
– И никто не знает?
– Нет, папа, я думаю, знает, и еще кое-кто из стариков знает; они только не знают, из-за чего в самый первый раз началась ссора {54} .
Стратегия равноценных ответных действий не предполагает возможности остановить этот порочный круг. Она слишком ориентирована на возмездие и недостаточно стимулирует прощение. В следующих версиях соревнований, которые устраивал Роберт Аксельрод, предусматривалась возможность ошибок и заблуждений; в итоге другие, более бескорыстные, стратегии показали свое превосходство над стратегией равноценных ответных действий {55} .
54
Твен М. Приключения Тома Сойера и Гекльберри Финна / Пер. Нины Дарузес. – М.: НИГМА, 2013.
55
В 2004 году Грэм Кендалл из Ноттингемского университета организовал соревнование в честь двадцатилетия первого турнира, который провел Роберт Аксельрод. Победителем стала группа исследователей из Саутгемптонского университета. Группа из Саутгемптона предложила стратегию, состоящую из 60 элементов: 59 «воинов» и одной «королевы». Все эти программы начинались с одной и той же комбинации символов, для того чтобы программы могли узнавать друг друга. Стратегия была разработана таким образом, что программы-воины приносили себя в жертву, давая королеве возможность добиться успеха. Кроме того, программы-воины отказывались сотрудничать с программами-соперниками, чтобы сократить их счет. Иметь в своем распоряжении армию воинов, готовых пожертвовать собой, – это действительно один из способов увеличить свой выигрыш, однако этот способ ничего не говорит нам о том, как решить дилемму заключенных.
Здесь мы можем научиться чему-то даже у обезьян. В ходе одного эксперимента с хохлатыми тамаринами одной из обезьян давали возможность потянуть рычаг, чтобы другая могла достать пищу. Однако для того, чтобы потянуть рычаг, следовало приложить усилие. Теоретически каждой обезьяне было бы выгоднее ничего не делать, пока партнер тянет рычаг. Но тамарины научились сотрудничать, чтобы избежать возмездия. Их сотрудничество сохранялось до тех пор, пока одна из обезьян два раза подряд не совершила предательство. Эта стратегия представляет собой разновидность стратегии «зуб за зуб», а именно – «два зуба за зуб» [34] .
34
Результаты эксперимента описаны в статье: M. Keith Chen and Marc Hauser, “Modeling Reciprocation and Cooperation in Primates: Evidence for a Punishing Strategy,” Journal of Theoretical Biology 235, no. 1 (May 2005): 5–12. Видеозапись эксперимента можно посмотреть здесь: www.som.yale.edu/faculty/keith.chen/datafilm.htm.
Более поздние эксперименты
Дилемма заключенных стала объектом тысяч экспериментов с участием разного числа игроков, с повторениями и с другой трактовкой условий игры. Вот некоторые важные выводы, сделанные в ходе этих экспериментов [35] .
Первый и самый важный вывод состоит в том, что игроки выбирают стратегию сотрудничества достаточно часто, даже если два игрока попадают в одну пару только один раз. В среднем почти половина игроков отдают предпочтение сотрудничеству. Самое впечатляющее доказательство этого факта было получено в ходе проведения телевикторины Friend or Foe («Друг или враг») на канале Game Show Network. Командам из двух человек задавали достаточно простые вопросы. Деньги, полученные участниками за правильные ответы, уходили в «трастовый фонд»; за 105 эпизодов в таком фонде накапливалось от 200 до 16 400 долларов. Для того чтобы разделить эти деньги, двум участникам предстояло решить следующую дилемму.
35
См. Camerer, Behavioral Game Theory, 46–48.
Каждый игрок должен был написать на листе бумаги слово «друг» или «враг». Если оба написали «друг», деньги делились поровну. Если один игрок написал «враг», а другой – «друг», весь выигрыш получал тот, кто написал «враг». Но если оба игрока написали «враг», ни один из них не получал ничего. Что бы ни сделала другая сторона, каждый игрок мог получить минимум столько же, сколько его соперник (или даже больше), если бы он написал «враг», а не «друг». Тем не менее почти половина участников шоу писали слово «друг». Даже когда призовой фонд увеличивался, вероятность того, что игроки выберут сотрудничество,
36
См. Felix Oberholzer-Gee, Joel Waldfogel, and Matthew W. White, “Social Learning and Coordination in High-Stakes Games: Evidence from Friend or Foe,” NBER Working Paper No. W9805, June 2003. Available at SSRN:См. также John A List, “Friend or Foe? A Natural Experiment of the Prisoner’s Dilemma,” Review of Economics and Statistics 88, no. 3 (2006): 463–471.
Если вы сомневаетесь, можно ли считать телевизионное шоу научным исследованием, обратите внимание на следующий факт: участникам телевикторины выплатили более 700 тысяч долларов. У этого эксперимента с дилеммой заключенных оказалось самое лучшее финансирование за всю историю экспериментов такого рода. Кроме того, по результатам викторины было сделано много важных выводов. Оказалось, что женщины в большей степени готовы идти на сотрудничество, чем мужчины: 53,7 процента (в первом сезоне – 47,5 процента). В первом сезоне участники шоу не имели возможности увидеть результаты других состязаний перед тем, как принимать решение. А вот во втором сезоне были оглашены результаты первых 40 эпизодов, что позволяло увидеть закономерность. Участники шоу учились на опыте своих предшественников. Если команда состояла из двух женщин, коэффициент сотрудничества повышался до 55 процентов, а когда в состав команды входили одна женщина и один мужчина, этот коэффициент падал до 34,2 процента. У мужчин в этом случае коэффициент сотрудничества тоже снижался до 42,3 процента. В целом готовность участников шоу сотрудничать уменьшалась на десять пунктов.
Когда группу участников эксперимента несколько раз разбивают по парам, каждый раз формируя новые пары, число людей, которые выбирают сотрудничество, со временем сокращается. Тем не менее это число не сводится до нуля; вместо этого формируется небольшая группа участников эксперимента, неизменно отдающих предпочтение сотрудничеству.
Если одна и та же пара играет в базовую игру с дилеммой заключенных много раз подряд, в большинстве случаев образуется весьма значительная последовательность взаимного сотрудничества; это продолжается до тех пор, пока один из игроков уже в самом конце серии игр не выберет стратегию предательства. Именно это произошло в ходе первого эксперимента с дилеммой заключенных. Как только Меррил Флад и Мелвин Дрешер придумали эту игру, они предложили двум своим коллегам сыграть в нее 100 раз [37] . В 60 раундах игры оба участника выбрали стратегию сотрудничества. Длинный период взаимного сотрудничества продолжался с 83-го по 98-й раунд, пока в 99-м раунде один из игроков не выбрал стратегию предательства.
37
Подробное описание этого эксперимента можно найти здесь: Poundstone, Prisoner’s Dilemma, 8–9; and Sylvia Nasar, A Beautiful Mind, 118–119.
Если следовать строгой логике теории игр, то в действительности этого не должно было произойти. Если игра повторяется ровно 100 раз, она представляет собой серию игр с одновременными ходами, а значит, мы можем применить к ней логику обратных рассуждений. Определите, что произойдет в сотом раунде. Это последний раунд игры, поэтому предательство не может быть наказано в следующих раундах. В таком случае, согласно принципу доминирующей стратегии, оба игрока должны выбрать в последнем раунде стратегию предательства. Но как только принимается такое предположение, последним становится, по сути, 99-й раунд. Хотя игрокам предстоит еще один раунд, выбор стратегии предательства в 99-м раунде не может быть наказан в 100-м раунде, поскольку сделанный в этом раунде выбор предопределен. Следовательно, логика доминирующей стратегии применима и к 99-му раунду. Эти рассуждения можно продолжить до первого раунда. Однако в реальной игре, будь то в лаборатории или в реальном мире, игроки склонны игнорировать эту логику и пытаются извлечь выгоду из взаимного сотрудничества. Поведение, которое на первый взгляд может показаться иррациональным (отказ от доминирующей стратегии), оказывается правильным выбором при условии, что другие игроки ведут себя столь же иррационально.
Специалисты по теории игр предлагают следующее объяснение этого феномена. В этом мире есть люди, которые всегда поступают с другими так, как поступают с ними; такие люди готовы сотрудничать до тех пор, пока другие делают то же самое. Предположим, вы не принадлежите к числу этих достаточно милых людей. Если бы в игре с конечным числом повторений вы вели себя так, как того требует ваш тип личности, вы начали бы с обмана. Это раскрыло бы ваш характер другому игроку. Для того чтобы скрыть правду (хотя бы на какое-то время), вам придется вести себя достойно. Зачем вам делать это? Предположим, вы начнете игру, поступив порядочно. Если другой игрок не относится к тем, кто всегда платит той же монетой, он подумает, что вы, возможно, принадлежите к числу тех немногих людей, которых можно назвать порядочными. Временное сотрудничество может принести определенную выгоду, поэтому другой игрок, желая получить эту выгоду, попытается ответить на вашу порядочность тем же. Это пойдет на пользу и вам. Разумеется, при этом вы (так же, как и другой игрок) планируете перейти к стратегии предательства к концу игры. Тем не менее на начальном этапе игры вы оба можете поддерживать взаимовыгодное сотрудничество. Хотя каждый игрок ждет момента, когда удастся воспользоваться порядочностью другого, этот взаимный обман приносит пользу им обоим.