- Mat Resume
- Posts
- Les gentils finissent premiers.
Les gentils finissent premiers.
Ce que la théorie des jeux révèle de la vie, et du comportement à adopter pour en sortir victorieux.
Le 16 juillet 1945, le projet secret des plus grands savants d’Europe et d’Amérique touche à sa fin.

Image de la première bombe atomique (source : AFNWC)
20 jours plus tard, la ville d’Hiroshima subit leur création, puis vient au tour de Nagasaki de finir en cendre.

Photographie de l’explosion atomique à Nagasaki (atomicarchive.com)
Le Japon capitule. C’est la fin de la seconde guerre mondiale, c’est aussi le début de la suprématie américaine.
Les alliés célèbrent la victoire, mais un homme la célèbre amèrement. John Von Neumann.

Photographie de John Von Neumann
Engagé pour le projet Manhattan à l’origine de la bombe atomique, Neumann est un génie hongrois.
Surnommé le martien pour ses capacités intellectuelles hors-normes, il développe des théories révolutionnaires, non seulement en mathématiques et physique nucléaire, mais aussi en économie.
Mais lors de la création de la bombe atomique à Los Alamos, il collabore à son insu avec un espion communiste. Le physicien allemand Klaus Fuchs.

Photographie de Klaus Fuchs
Alors le jour de la victoire, il pressent le pire.
Chapitre 1 : Troisième Guerre Mondiale
Le 3 septembre 1949, un avion américain décèle dans l’atmosphère au-dessus du Japon des particules radioactives.

L’avion à l’origine de la détection de particules nucléaires.
Leur durée de vie est de quelques mois seulement. Mais les américains n’ont déclenché aucune explosion nucléaire de l’année.

Première détonation de la bombe atomique par l’union soviétique
5 jours plus tôt l’URSS testait sa première bombe atomique au Kazahkstan.
Un bruit assourdissant et une lumière aveuglante sonnant la mort du monopole atomique américain et la naissance de la plus grande menace pour la survie de l'espèce humaine.
Des stratégies surviennent alors pour maintenir désespérément la suprématie américaine.
Par exemple, agresser pour assurer la paix.
C’est une stratégies mise sur la table par le secrétaire d'état de la marine américaine, Francis Matthews.

Francis P. Matthews à droite
Une proposition soutenue par John Von Neumann. Il anticipe depuis plusieurs années une guerre nucléaire inévitable entre la Russie et les Etats-Unis. Alors pour le génie hongrois, détruire l’URSS avant qu’elle soit en mesure de riposter lui paraît être la meilleure stratégie pour éviter la 3e guerre mondiale.
Larguer une bombe “pacifique” sur Moscou… Une stratégie comme en 1945 finalement.
Mais l'Amérique ne passe pas à l’action, et rapidement, la question ne se pose plus. Les Russes détiennent de quoi anéantir l'Amérique.
Chaque attaque recevra une riposte de force égale ou supérieure.
Alors dans ces conditions, comment éviter la fin du monde ?

Mike Test (Atomicarchive.com)
Le gros champignon que vous voyez là a montré le bout de son nez en 1952. C’est le jour du Mike test. Le premier test de la bombe hydrogène par les américains. En proportion on est sur une force 100 fois supérieure à celle de la bombe d'Hiroshima, de quoi montrer au monde qui a la plus grosse.
Mais les soviétiques suivent la marche avec leur premier test thermonucléaire en 1955, que la santé des habitants du coin au Kazakhstan a bien ressentie.
Les radiations affectent aussi John Von Neumann. Il nous quitte en 1957 d’un cancer des os, probablement les conséquences de la contemplation du test nucléaire de bikini atoll.

Test nucléaire de Bikini Atoll, opération Crossroads
Mais la course nucléaire ne s'arrête pas là chez les hommes rationnels.
L’équilibre de la terreur n’a trempé que son petit doigt de pied dans la merde.
Les américains et les soviétiques, assoiffés de domination, détonnent en 1958 plus de 70 bombes.
En 1985, les américains et les soviétiques détiennent à eux seuls plus de 60 000 ogives nucléaires.
Sachant que 3 bombes suffisent à réduire en cendre n’importe quelle ville de plus de 100 000 habitants, on a ici de quoi détruire 4 fois toutes les villes du monde.
Alors, il est temps de produire un miracle.
Mais existe-t-il une loi universelle, capable de résoudre les pires conflits ?
Si l'équilibre de la terreur chancelle, c’est la chute dans une 3e guerre mondiale. Le dernier conflit de l’espèce humaine.
La fin du jeu de la vie.
Chapitre 2 : Les méchants doivent être gentils pour ne pas pleurer leur mère
John Von Neumann s’aperçoit tôt que la vie est comparable à un jeu.
Un jeu dans lequel les joueurs, contrairement aux atomes, sont d’une nature intéressée, et anticipent les actions des autres joueurs pour satisfaire leurs intérêts.
Le jeu de la vie mérite donc une science mathématique différente.
Il décide de l’appeler : la théorie des jeux.
Ses fondements permettent d’analyser des situations dans lesquelles plusieurs personnes, qu’on appellera des joueurs, prennent des décisions interdépendantes.
Comme au Poker, chaque joueur est obligé de considérer les options de décision et de stratégie des autres joueurs pour formuler sa propre stratégie et satisfaire ses propres intérêts.

Compétition de Poker
La solution à chaque situation, qu'on appellera ici un jeu, correspond aux décisions optimales que les joueurs doivent prendre pour obtenir les meilleures conséquences possibles, même si leurs intérêts peuvent être différents.
Dans notre cas d’étude, les joueurs sont l’URSS et les Etats-Unis, se disputant le pouvoir dans un jeu nucléaire capable de maintenir la paix ou détruire le monde. Chaque décision impacte l’équilibre de cette terreur funambule, tenant parfois seulement sur un bout d’orteil.

Le président Bush et Gorbachev se serrant la main à la fin d’une conférence de presse à Moscou, en 1991 (Peter Turnley).
Mais maîtriser cette nouvelle science, la théorie des jeux, c’est détenir les solutions à tous les conflits.
On part ici l’explorer ensemble, pour y trouver le comportement à adopter pour sortir victorieux non seulement de ce jeu nucléaire, mais tout simplement du jeu de la vie.
Notre voyage nous ramène en janvier 1950, lorsque deux scientifiques du groupe de réflexion RAND, chargés de résoudre ce jeu nucléaire, approfondissent les travaux de John Von Neumann.

Photographie du groupe de réflexion RAND (archives de RAND)
Ils mettent en place la toute première expérience comportementale de ce qu’on appelle aujourd’hui le dilemme du prisonnier.

Screenshot d’une vidéo de deux braqueurs d’une bijouterie dans Paris
Ces deux individus viennent de braquer une bijouterie. Nommons ces deux hommes Toni et Albert. Imagine que tu es Toni et que tu n'as pas de lien d’amitié ou d’affection avec Albert.
Mais toi et Albert êtes arrêtés par la police et séparés dans des salles d’interrogatoire. On vous laisse deux choix : coopérer en gardant le silence ou trahir en dénonçant le partenaire :
Si vous trahissez tous les deux, vous êtes condamnés chacun à 5 ans de prison.
Si vous coopérez, vous êtes libres tout de suite.
Mais si l'un de vous trahit tandis que l'autre coopère, le traître est libéré et le coopérateur est condamné à 20 ans de prison.
Albert 👇️ | Toni 👉️ | Trahit | Coopère |
---|---|---|
Trahit | 5 ans | 5 ans | 0 année | 20 ans |
Coopère | 20 ans | 0 année | 0 année | 0 année |
Dans cette situation, tu gardes le silence ou tu dénonces Albert ?
Le dilemme du prisonnier se pose parce que le meilleur choix individuel pour chaque prisonnier est de trahir l’autre, même si la coopération leur serait bénéfique à tous les deux.
Malgré l'incitation à coopérer, l'absence de communication conduit les deux prisonniers, deux hommes rationnels, à choisir la trahison si le jeu n'est joué qu'une seule fois. Alors, ils finissent comme des cons avec 5 ans de taule chacun. La situation sous-optimale alors qu’ils auraient pu écoper d’un an seulement en coopérant.
Mais ici Toni prévoit correctement le choix de trahir d’Albert et Albert anticipe la trahison de Toni. Chaque joueur maximise son gain car si l’un des joueurs décide de changer de stratégie pour coopérer, alors il prendrait 20 ans de prison au lieu de 5.
Cette situation est appelée l’équilibre de Nash. Dans notre jeu nucléaire, on l’appelle l’équilibre de la terreur.
Mais dans le jeu de la vie, ce dilemme n'a pas lieu qu’une fois, il se répète sur le long terme. Et ça bouleverse notre comportement.
Le coyote et le blaireau sont deux prédateurs différents, mais il leur arrive de chasser ensemble.

Partie de chasse entre un blaireau et un coyote
Le blaireau déloge les proies sous terre et le coyote récupère celles qui s'échappent à la surface.
Si ce type de coopération n’avait lieu que sur une journée, alors le coyote pourrait décider de maximiser son bénéfice et trahir le blaireau, en abusant de son aide pour récupérer plein de proies avant de s’enfuir en laissant le blaireau seul, démuni.
Ce serait la solution la plus rationnelle pour que le coyote maximise ses intérêts.
Mais dans le monde sauvage comme dans notre civilisation, les animaux se côtoient jour après jour, le dilemme du prisonnier n’a pas lieu qu’une seule fois, mais il se répète sur des périodes de temps indéfinies.
La nature a favorisé ces mécanismes évolutifs de coopération répétée sur le long terme.
Si le coyote décide de trahir au lieu de coopérer. Le blaireau risque de le trahir la prochaine fois. Sauf si c’est un blaireau.

Extrait d’un épisode de Looney Tunes montrant le coyote phare du dessin animé
Bref, malheureusement dans notre monde, la confiance est rare, donc on n'est jamais à l’abri d’une trahison.
Alors si le dilemme se répète indéfiniment, quelle est la meilleure stratégie à adopter pour maximiser ses gains individuels sur le long terme ?
En 1980, un tournoi est organisé par le scientifique Robert Axelrod pour trouver la réponse.
Il fait venir les plus grands théoriciens avec chacun une stratégie unique en main. Chaque stratégie prend la forme d’un programme informatique.
Des lignes de code confiant un comportement particulier à un avatar.

Exemple de lignes de code pour définir le comportement d’un avatar utilisées dans le tournoi d’Axelrod
Chaque avatar s’affronte dans une longue série du dilemme du prisonnier afin d'établir quelle stratégie est la meilleure.
Afin de simplifier le jeu, au lieu des années de prison, Axelrod décide de fonctionner sous forme de points.
Ici, pour rendre le jeu plus concret, on va remplacer les points par de l’argent.
Donc si les deux se trahissent, ils gagnent 100 euros.
Si les deux coopèrent, alors ils remportent 300 euros chacun.
Mais si l’un trahit et l’autre coopère, alors le traître gagne 500 euros et l’autre 0 euros.

Tableau explicatif du fonctionnement du tournoi (extrait de ma vidéo YouTube)
La stratégie gagnante est celle ayant obtenu le plus d’argent après avoir affronté tout le monde. Afin d’être sûr que le résultat est fiable, le tournoi est répété 5 fois.
15 avatars des plus fourbes aux plus gentils s’affrontent dans ce tournoi.
On retrouve Davis, un avatar qui coopère les 10 premières fois, mais si tu le trahis ensuite, alors il te trahira tout le temps.
Joss lui te trahira 10% du temps si tu coopères, mais si tu le trahis une fois, alors il te trahira tout le temps ensuite.
Grudger, lui coopère tout le temps, mais si tu le trahis une fois, alors il te trahira à chaque fois ensuite.
Je te passe des stratégies beaucoup plus complexes et fourbes participant à la compétition.
Alors selon toi quelle stratégie triomphe ?
Après que tous les compétiteurs se soient affrontés, le classement fut publié.

Classement du premier tournoi d’Axelrod
Bizarrement, la stratégie ayant remporté le plus d’argent est la plus simple : la stratégie “œil pour œil”.
Elle coopère dès le début puis reproduit ce que son adversaire a fait dans le tour d’avant.
Si tu trahis “œil pour œil”, alors elle te trahit au tour suivant, si tu coopères ensuite, alors elle coopère au tour suivant. Elle rend coup pour coup.
Par exemple, quand “œil pour œil” affronte Joss, alors ils coopèrent d’abord puis Joss la trahit au 8e tour, du coup ils se trahissent ensuite durant tout le jeu restant.
Des trahisons répétées qu’on observe dans notre jeu nucléaire et la plupart des jeux politiques.
Œil pour œil et Joss ont donc gagné très peu d’argent.
Mais dans ce jeu comme dans la vie, tout le monde joue avec tout le monde. Alors même si “œil pour œil” a gagné peu d’argent avec Joss, ses nombreuses coopérations avec les autres joueurs lui ont permis de gagner beaucoup plus d’argent que tous les autres joueurs et gagner le tournoi.
Axelrod a organisé un autre tournoi par la suite avec d’autres stratégies et quelques nuances. Le premier tournoi contient 200 tours. Mais le deuxième tournoi n’a pas de nombre de tour connus à l'avance.
Parce que pour maximiser la probabilité de coopération sur le long terme, il est préférable de ne pas donner de date de fin à un jeu. S’il y a une date de fin au jeu alors un des joueurs peut trahir l’autre afin de maximiser ses gains au dernier tour sans risquer de représailles. Alors que s’il ignore quand termine le jeu, par précaution il coopère car il a besoin de l’autre pour maximiser ses gains au risque de recevoir une contre-attaque.
Mais malgré cette nuance du nombre de tours, le même phénomène a pu être observé.
Le classement fut publié. Les comportements en haut du classement sont gentils, avec à sa tête “œil pour œil”. Les comportements vicieux et méchants, c'est-à-dire qui trahissent les premiers, finissent derniers.
Donc les gentils finissent premiers. Mais uniquement lorsqu’ils partagent 3 qualités.
La riposte. Au-delà d’être gentils, il faut riposter. Si l’adversaire te trahit, il faut contre-attaquer, ne pas se laisser faire. Se laisser faire, c’est toujours coopérer. Coopérer lorsqu’on est trahit, c’est jouer les victimes.
Le pardon. Les meilleures stratégies pardonnent. Elles ne sont pas rancunières. Si tu trahis “Œil pour œil”, elle te trahira alors uniquement au tour suivant en guise de contre-attaque, et coopérera ensuite sauf si tu recommences.
Mais attention, parce que dans le monde réel, nos choix peuvent être perturbés par des erreurs et des malentendus. Il est parfois dur de savoir si une action donnée est une erreur ou un choix volontaire, et les conséquences peuvent être irréparables.
Le 1er septembre 1983, un avion de ligne sud-coréen a survolé par erreur l'Union soviétique.

Il a été abattu par les soviétiques, tuant les 269 personnes à bord. Les américains et les russes ont exprimé leur colère l'un envers l'autre. Ce fut une escalade brève, mais brutale, des tensions de la guerre froide.
Donc en appliquant chacun la stratégie “œil pour œil”, une erreur ou un malentendu pourrait déclencher une série de trahisons alternées infinies.
C’est pour cela qu’Axelrod recommande d’appliquer la stratégie “œil pour œil” en pardonnant 10% du temps en plus, afin de briser les cycles interminables de trahison, sans pour autant devenir une victime.
Puis la dernière qualité est la clarté. La stratégie de ceux qui gagnent le plus d’argent est claire. Leurs valeurs sont claires. Ce qui établit une confiance. Lorsque le comportement du joueur est imprévisible et incompréhensible, alors le brouillard qui en découle crée un sentiment d'insécurité chez l’autre joueur. Ce qui l’invite à trahir par peur d’être trahi. La réputation dans le jeu de la vie est cruciale.
Ce sont les qualités qu'a identifié Robert Axelrod.
Certaines personnes pensent que ces résultats expliquent pourquoi on retrouve aujourd’hui dans la nature ces comportements de coopération répétée. La nature fut initialement composée d’organismes égoïstes. Mais le fait que ces coopérations favorisent la survie pourrait avoir permis d’encoder ce comportement dans l’ADN jusqu’à s’imposer inconsciemment au sein d’une population d’animaux.
Comme les corbeaux qui guident les loups vers leur proie pour que chacun bénéficie d’un repas.

Coopération animale entre le loup et les corbeaux
Ou bien la mangouste qui mange les insectes et les parasites sur le phacochère qui lui offre en échange une protection contre les prédateurs.
Une belle amitié comme dans le roi lion.

Coopération animale entre le phacochère et la mangouste (crédit : Françoise Angrand)
La vie est un jeu à somme positive.
Pour gagner dans la vie, il n’est pas nécessaire de battre l’autre. Chacun peut gagner. C’est pour ça que la stratégie “œil pour œil” remporte le tournoi bien qu’elle ne gagne aucun dilemme du prisonnier. “Œil pour œil” ne peut que riposter ou coopérer, elle ne gagne jamais plus que l’autre. Elle se fait donc parfois piéger par quelques personnes fourbes. Pourtant, c’est elle qui finit avec le plus d’argent grâce à ses nombreuses coopérations fructueuses.
Chapitre 3 : Paix éternelle
C’est ainsi qu’à la fin des années 80, les Etats-Unis et l’Union Soviétique ont chacun réduit leur nombre d’ogives nucléaires.
Ayant compris les lois du jeu de la vie, ils décidèrent de créer une série de dilemmes du prisonniers sur une période de temps indéterminée. Chaque dilemme consistant en un désarmement de quelques bombes nucléaires accompagné d’une vérification dans le camp adverse pour s’assurer de la coopération mutuelle.

Un inspecteur soviétique examine un missile avant sa destruction, 1988.
S’ils avaient créé un seul dilemme du prisonnier, le risque de trahison aurait été élevé, car trahir signifierait alors une domination nucléaire sur l’adversaire, donc la suprématie mondiale. Ce dilemme aurait donc probablement conduit à une trahison mutuelle par peur de perdre. Ce qui aurait prolongé la course à l’arme nucléaire.
Ces désarmements répétés ont donc installé un climat pacifique.
Nos décisions ont un grand pouvoir dans notre vie et celle des autres.
Sur le long terme, elles peuvent transformer pour le mieux notre monde à tous, à condition qu’on retienne bien la leçon d’Axelrod.
Les gentils finissent premiers. A condition s’ils ripostent lorsqu’ils sont attaqués, et pardonnent de temps à autre. Mais surtout, s’ils sont clairs sur leur stratégie et leurs valeurs, dans les paroles comme dans l’action.
Le jeu de la vie est un jeu infini, ce n’est pas un jeu fini. Il ne s’agit pas de battre l’autre mais de coopérer pour tous gagner sur le long terme. Chacune de nos décisions crée notre réputation. Si nous ne sommes pas clairs sur nos valeurs, si nos actions nous rendent imprévisibles, alors l’incertitude engendrée chez les autres fragilise la confiance et donc la qualité de nos coopérations présentes et futures.
C’est pourquoi il est souvent préférable de ne pas maximiser nos intérêts dans certaines situations. Le but est d’agir en accord avec nos valeurs pour assurer une confiance à long terme avec nos autres relations et ainsi prospérer.
Cela vaut dans toutes les relations et activités qu’elles soient politiques, familiales ou professionnelles.
C’est l’erreur qu'ont fait les Etats-Unis en annonçant leur victoire après la chute du mur de Berlin comme s’ils jouaient à un jeu fini.

Photographie de la chute du mur de Berlin
Dans le jeu de la vie, certains joueurs tombent et d’autres les remplacent. Pour prospérer il faut donc rester clair sur ses valeurs et jouer au jeu infini.
Les valeurs des Etats-Unis sont notamment la démocratie, les droits humains et la stabilité.
Mais lorsque les Etats-Unis envahissent l’Iraq en 2003. Les scandales liés à l’instabilité engendrée et aux tortures accouchent d’une incertitude quant aux valeurs américaines.
Lorsque les Etats-Unis n’interviennent pas en Syrie pour faire respecter leurs principes et s’opposer clairement à la tyrannie, la confusion s’installe.
En satisfaisant leurs intérêts court terme avant leurs valeurs, ils deviennent imprévisibles. Ce qui fragilise la confiance, donc les coopérations présentes et futures.
De quoi leur nuire sur le long terme.
Aujourd’hui, la course à l’arme nucléaire reprend.
En 2022, la Russie annonce suspendre les inspections américaines prévues dans le cadre de leur accord clé de désarmement nucléaire.
En 2023, elle livre des ogives nucléaires à la Biélorussie.
Izumi Nakamitsu, la haute représentante des affaires de désarmement aux Nations-Unies déclare en avril dernier :
Le risque d'utilisation d'une arme nucléaire est plus élevé aujourd'hui que jamais depuis l'apogée de la guerre froide, et l'architecture conçue pour empêcher son utilisation est de plus en plus précaire.
En parallèle, le développement rapide et opaque de l'arsenal nucléaire de la Chine ne fait que rapprocher l’humanité du bord de l’anéantissement.
A ce rythme, il se pourrait qu’en 2027, nous soyons confrontés à un nouveau monde. Un monde comme en 1985, où les nations accumulent librement des ogives nucléaires, mais sans la période de coopération qui suit.
Alors n'oublions pas que nos décisions définissent l’avenir. Elles peuvent faire prospérer la vie ou son contraire.
Décidons bien.
Mais surtout, n’oublions pas une chose.
Les gentils finissent premiers.
Mat
Sources
(Axelrod, 1980)
Axelrod, R. (1980). More effective choice in the Prisoner’s Dilemma. The Journal of Conflict Resolution, 24(3), 379–403. http://www.jstor.org/stable/173638
(Axelrod & Hamilton, 1981)
Axelrod, R., & Hamilton, W. D. (1981). The evolution of cooperation. Science (New York, N.Y.), 211(4489), 1390–1396. https://doi.org/10.1126/science.7466396
(*Background to Axelrod’s tournament — Axelrod 0.0.1 documentation*, n.d.)
Background to Axelrod’s tournament — Axelrod 0.0.1 documentation. (n.d.). Readthedocs.Io. Retrieved June 14, 2024, from https://axelrod.readthedocs.io/en/fix-documentation/reference/description.html
Les autres sources majeures sont disponibles via ce lien : https://obsidian-cushion-578.notion.site/Les-gentils-finissent-premiers-0c6f51342a224564a1944cec8f65bc5e
Reply