Дилемма дилеммы заключенного

Небольшая дилемма по поводу дилеммы заключенного.

В целом в итеративной дилемме заключенного хорошей стратегией считается tit-for-tat – ты начинаешь с С, потом повторяешь действия оппонента. Два tit-for-tat игрока будут выбирать С друг против друга, достигая глобально оптимального результата, одновременно наказывая всех, кто пытается их обмануть и эксплуатировать. В ранних соревнованиях в дилемме заключенного такая стратегия выигрывала значительно лучше, чем любые сложные алгоритмы, пытающиеся анализировать поведение оппонента.

Но здесь есть некоторый парадокс схожий с парадоксом неожиданной казни, который я рассмотрела шуточно. А что если фор риал?

Допустим у нас 100 раундов дилеммы заключенного, и два игрока играют в tit-for-tat. По идее, они оба выбирают С всю дорогу, и оба счастливы. Никому из них не выгодно отходить от стратегии – потому что если они решат выбрать D, их накажут. Так что это равновесие Нэша.

Если я выберу D на последнем раунде, никто меня не накажет! Игра сразу же закончится, и я просто получу больше очков на последнем раунде, ничем при этом не жертвуя. С моей точки зрения это Парето-улучшение. Мой оппонент, следуя такой же логике, тоже выбирает D на последнем раунде.

Но теперь, если я знаю, что мой оппонент будет играть D в последнем раунде вне зависимости от моих действий, то в целом играть C в предпоследнем раунде мне смысла нет – никто не накажет меня, если я сыграю D. Это тоже выглядит как Парето-улучшение.

Ну и так далее по индукции, оба игрока всю дорогу нажимают D, чтобы строго улучшить свою позицию, и оба оказываются в худшей позиции. Что пошло не так?

…

Ну в целом, “мы оба делаем Парето-улучшения для себя, и в итоге оба оказываемся в заднице” это и есть one-shot дилемма заключенного, с которой и начался разговор. Стандартная дилемма заключенного между эгоистичными агентами, которые просто слишком тупые, чтобы понять, что D для них строго лучше, тоже может окончиться на С-С. Но если дать им секунду подумать – оба проигрывают.

Здесь разница между С и D более тонкая, не видная сразу, поэтому “тупой” tit-for-tat агент выбирает мета-С. Но если дать им подумать минуту и провести всю логическую цепочку, обозначенную выше, то оба игрока выберут мета-D и окажутся в заднице.

Вероятно здесь должна быть полезна стратегия мета-tit-for-tat для случая нескольких соревнований по итерированной дилемме заключенного?..

Как нас учит постмодернизм, приставок “мета” к чему угодно можно приставить сколько угодно. На каком уровне играешь ты? Я – ровно на один уровень выше :3

Это не бесконечная рекурсия. Вся эта цепочка мета, и мета-цепочка мета, и тот вселяющий ужас момент, когда порядковые числа переходят от “мета” в “омега” – все схлопывается в одну очень интересную концепцию. В какую?