Diese Arbeit hat zum Ziel, die Strategie "Tit For Tat" im iterierten Prisoner’s Dilemma (wiederholtes Gefangenendilemma) zu verbessern. Ausgehend von Robert Axelrod und seiner Schwächenanalyse der Strategie werden dazu Maßnahmen diskutiert und realisiert. Simulationsergebnisse und Quellcodes veranschaulichen die Umsetzung und den Erfolg. Die verschiedenen Maßnahmen werden am Ende für bestimmte Verwendungszwecke kombiniert, so dass TFTs Erfolg weit übertroffen werden kann. Ein Ausblick widmet sich möglichen Entwicklungen im IPD.
Inhaltsverzeichnis
Vorwort
1. Robert Axelrods Computerturnier
1.1 Das Prisoner’s Dilemma
1.2 Regeln und Durchführung des Turniers
1.3 Ergebnisse und Schlüsse
1.4 Analyse der Schwächen von TFT
2. Realisierung von Verbesserungen für TFT
2.1 Geringen Payoff gegen Random verbessern
2.1.1 Randomerkennung durch Muster
2.1.2 Erkennung durch Tracking von Gegnerzügen
2.2 Echo-Effekte erkennen und auflösen
2.2.1 Mustererkennung ohne Wissen
2.2.2 Mustererkennung durch Vergleich
2.2.3 Entdecken alternierender Züge durch Hochzählen
2.2.4 Bedingte Vergebung von Defektionen
2.3 Kooperationsangebote
2.4 Im Endgame-Effekt gut abschneiden
2.5 Eigene Noise-Fehler korrigieren
2.6 Die finale Version von augmentedTFT
2.6.1 Maximale Robustheit
2.6.2 Auf IPD-Turniere optimiert
2.6.3 Für Umgebungen mit Noise
3. Ausblick
Anhang A – Unabhängigkeit in evolutionären Simulationen
Anhang B – Arten von Strategien
Literaturverzeichnis
Anlage: Archiv mit zu dieser Arbeit gehöhrenden Dateien (Simulationsergebnisse und Sourcecodes)
Vorwort
Diese Arbeit hat es sich zum Ziel gemacht, eine erfolgreiche Strategie aus dem iterierten Prisoner’s Dilemma weiter zu verbessern und Erweiterungen für verschiedene Einsatzgebiete, z.B. für noiseverzerrte Simulationen, zu diskutieren. Diese Strategie ist Tit For Tat, vor allem bekannt durch Robert Axelrods Buch “The Evolution of Cooperation” (1984), worauf hier aufgebaut wird. Die vorgeschlagenen Maßnahmen wurden auch in der Praxis getestet, so dass nicht nur die Theorie beleuchtet wird, sondern vor allem auch Probleme und Erkenntnisse aus den Simulationen einfließen.
Dazu werden zunächst Grundlagen in Form des Prisoner’s Dilemmas erläutert und selektiv die nützlichsten Ausführungen von Axelrod rekapituliert – in Bezug auf Turnier sowie der Strategie Tit For Tat. Das zweite Kapitel ist der Hauptteil und befasst sich mit der Umsetzung von Verbesserungen für Strategien, speziell für TFT, ausgehend von der Schwächenanalyse. Das geschieht anhand von Sourcecode-Auszügen und experimenteller Ergebnisse sowie deren Auswertung. Zum Abschluss gibt es einen Ausblick zur Zukunft von IPD-Turnieren. Komplette Sourcecodes und ausführliche Simulationsergebnisse befinden sich aufgrund des Umfangs nicht in diesem Dokument, sondern liegen bei.
1. Robert Axelrods Computerturnier
1.1 Das Prisoner’s Dilemma
Das Prisoner’s Dilemma, folgend PD, ist ein Spiel für üblicherweise zwei Spieler, welche jeweils 2 Wahlmöglichkeiten haben: Kooperation (C) oder Nichtkooperation, auch Defektion (D) genannt. Abhängig von der eigenen Entscheidung (1) und der des Gegners (2) ergibt sich der Payoff für einen Zug, also der Gewinn oder die Ausbeute. Das lässt sich in einer 2x2-Matrix veranschaulichen:
Abbildung in dieser Leseprobe nicht enthalten
Unabhängig davon, welche Werte für die Payoffs vergeben werden, wird deutlich, dass das Spiel symmetrisch ist. Jede Seite bekommt also für die gleiche Kombination aus eigener und gegnerischer Entscheidung denselben Payoff. Allerdings gibt es zwei Bedingungen[1], die bei der Payoffverteilung gelten müssen, damit ein PD vorliegt:
(1) Ti > Ri > Pi > Si für i = 1, 2
(2) (Ti + Si) / 2 < Ri für i = 1, 2
Die erste Bedingung muss gelten, damit überhaupt von einem Dilemma gesprochen werden kann. Dieses entsteht dadurch, dass es für jeden Spieler individuell rational ist, zu defektieren. Denn egal, ob der andere Spieler kooperiert oder defektiert, bekommt man immer ein besseres Resultat, indem man defektiert. Veranschaulicht in der Tabelle für Spieler 2:
Abbildung in dieser Leseprobe nicht enthalten
Die Defektion ist somit die dominante Strategie, da sie besser ist unabhängig davon, was der Gegner macht. Für diesen gilt das ebenfalls und so kann es bei rationalen Spielern im spieltheoretischen Sinne nur ein Ergebnis geben: Beide defektieren und erhalten somit P als Payoff. Da kein Akteur den Anreiz hat, sein Verhalten oder seine Wahl zu ändern, liegt ein Gleichgewicht vor – genauer: ein Nash-Gleichgewicht.[2] Das Dilemma besteht nun darin, dass ein Ergebnis erreicht werden könnte, das beide besser stellt, also pareto-superior ist. Das wäre dann der Fall, wenn beide kooperieren würden. Bei der eben vorausgesetzten Rationalität wird das aber nicht geschehen, da dann wieder ein Anreiz zum Verhaltenswechsel vorliegt, also die Wahl auf Defektion zurückfällt.
Das iterierte PD (kurz: IPD) besteht aus mehreren Runden des PDs, so dass dieselben Akteure mehrere PDs hintereinander spielen. Hier wird die zweite Bedingung relevant. Diese soll sicherstellen, dass Kooperieren in zwei Runden zwischen den Akteuren ertragreicher ist als je einmal Defektieren und Kooperieren in entgegengesetzter Reihenfolge, also dass R∙2 > (T + S) gilt. Bei ausreichend wahrscheinlicher Fortsetzung des Spiels gibt es keine dominante Strategie mehr. Während für (1) ordinaler Nutzen ausreichend ist, benötigt (2) einen kardinalen Nutzenbegriff. Dieser ist auch für das Computerturnier notwendig, da die Payoffs, also Nutzenwerte, zwischen verschiedenen Begegnungen verglichen und addiert werden, so dass die Unterschiede/Intervalle und nicht nur die Ordnungen zählen.[3]
1.2 Regeln und Durchführung des Turniers
Die Frage, welche Strategie sich am besten in iterierten PDs schlägt, bewegte Robert Axelrod dazu, ein Computerturnier zu veranstalten. „[Dabei] ist eine Strategie […] eine Spezifikation dessen, was in jeder Situation, die in einem Spiel überhaupt entstehen könnte, zu tun ist.“[4] Dazu wurden professionelle Spieltheoretiker aufgerufen, Strategien einzusenden und in einem späteren, zweiten Durchlauf wurden mit Kenntnisstand über den ersten Durchlauf abermals Strategien eingeschickt – diesmal aber nicht nur von Professionellen und Spieltheoretikern. Dabei galten folgende Regeln:
- jede Strategie trat gegen alle anderen eingesendeten Strategien an, sowie gegen sich selbst und Random (spielt C mit 50% und D mit 50% Wahrscheinlichkeit)
- im ersten Turnier wurden 200 Züge gespielt, im zweiten gab es eine Abbruch-wahrscheinlichkeit, so dass der erwartete Median der Länge 200 Runden entsprach
- Payoffs waren mit (T, R, P, S) = (5, 3, 1, 0) definiert
- fünfmaliges Durchführen der Begegnungen und Mitteln der Ergebnisse, um das Endergebnis zu stabilisieren und Zufallsabweichungen zu minimieren
- kein Ausschließen rechenintensiver Strategien
- es gab keine Noise-Effekte (Verfälschungen von Kommunikation der Akteure)
Die verwendbaren Informationen für die Strategien bestehen aus den bisherigen eigenen Zügen, die bisherigen Züge des Gegners sowie die Anzahl der Runden, wenn wie im ersten Turnier festgelegt. Eine solche Festlegung der Rundenzahl führt üblicherweise zu einem Endgame-Effekt (näheres in Sektion 2.4). Um diesen zu umgehen, greift man heute meistens auf Abbruchwahrscheinlichkeiten zurück, so dass die letzte Runde nicht bekannt ist. Das hat einen Nachteil in der Punktberechnung: Manche Duelle können wesentlich länger anhalten als andere, was vor allem dann Auswirkungen hat, wenn bei Strategien „Fixkosten“ anfallen, also beispielsweise ein festes Muster am Anfang gespielt wird oder Defektionszüge zu Identifikationszwecken nötig sind.[5] Diese Kosten fallen bei mehr Runden weniger ins Gewicht – analog zur Ökonomie, wo Fixkosten mit steigender Produktionsmenge sinkenden Anteil an den Durchschnittskosten haben (Fixkostendegression). Mit mehrmaligem Wiederholen des Turniers und konsequenter Durchschnittsbildung im Ranking können diese Differenzen durch Unterschiede der Rundenzahl weitgehend ausgeräumt werden.
1.3 Ergebnisse und Schlüsse
Die Strategie Tit For Tat (folgend TFT) gewann beide Turniere. Für bemerkenswert hält das Axelrod vor allem, weil sie die einfachste Strategie war, denn alles was sie macht, ist in der ersten Runde zu kooperieren und danach des Gegners vorherigen Zug zu spielen.[6]
(1) Einer Eigenschaft wird besonders zugeschrieben, diesen Erfolg begünstigt zu haben: Axelrod nennt sie „Freundlichkeit“ und besagt, kooperierend zu beginnen und nicht zuerst zu defektieren. Im ersten Turnier waren die ersten acht Strategien freundlich und keine der schlechter platzierten. Im zweiten Turnier betrug die Korrelation zwischen Freundlichkeit und Punktzahl sogar 0,58. Hier sei aber angemerkt, dass Freundlichkeit eben gerade diesen Vorteil brachte, weil mehrere Strategien freundlich waren. Ein Theorem Axelrods (angelehnt an das Folk-Theorem, war schon vorher bekannt) besagt, dass es keine beste Strategie im IPD unabhängig von den anderen Strategien geben kann.[7] Das schlägt sich hier nieder, denn die freundlichen Strategien haben – da es keine Noise-Effekte gab – durchgängig kooperiert (bis auf die letzte Runde) und somit im Durchschnitt fast 3 Punkte pro Runde erhalten. Tatsächlich begünstigt das Design des Turniers, was Strategien gegen sich selbst antreten lässt, freundliche Strategien, da diese dort 3 Punkte einfahren gegenüber nur 1 Punkt, den bestimmte unfreundliche Strategien zumindest zeitweise gegen sich selbst erhalten. Dieser Unterschied fällt aber bei komplexeren unfreundlichen Strategien immer weniger ins Gewicht (z.B. Fingerprint-Strategien, die sich selbst erkennen und daher gut abschneiden).
In der evolutionären Spieltheorie gibt es dazu folgende Gedanken: Nehmen wir an, es gäbe eine Population von Individuen, die nur Hawk spielen, also immer defektieren. Kommt nun ein einzelnes Individuum mit freundlicher Strategie dazu, so wird es in diese Population nicht eindringen können, denn es verliert gegen jedes andere Individuum in der Interaktion durch IPD. Bei einem TFT Spieler würde immer die erste Runde verloren gehen, aber das ist ausreichend, dass dieser ausstirbt. Hawk ist also eine kollektiv stabile Strategie.[8] Im Turnier kann dieser Fall aber nicht auftreten, da die freundliche Strategie zumindest mit sich selbst kooperiert. Und sie bekommt dort in jeder Runde den dreifachen Payoff von Hawk, die hier als Repräsentant von früh defektierenden Strategien aufgeführt wird. Das heißt also, dass schon wenige freundliche Strategien gegenüber vielen Hawk -ähnlichen besser abschneiden können. Bemerkenswert ist darüber hinaus, dass freundliche Strategien auch Vorteile haben, je größer die Rundenzahl ist, denn dann schwindet der Nachteil aus der ersten Runde[9] gegen Hawk und es gibt mehr Runden, in denen der höhere Payoff aus gegenseitiger Kooperation mit anderen freundlichen Strategien oder sich selbst erspielt werden kann.
(2) Eine weitere vorteilhafte Eigenschaft wird in „Vergebung“ gefunden, also der Neigung, nach Defektion auch wieder Kooperation einzugehen. TFT besitzt diese Eigenschaft, aber in recht schwacher Form, da Kooperation nur wieder zustande kommt, wenn ein Kooperationsangebot vom Gegner vorliegt. In einer leicht abgeänderten Form nenne ich die Eigenschaft „Nachsicht“, wenn auf eine fällige Defektion aufgrund von Defektion des Gegners verzichtet wird. Nachsicht ist dabei nur relativ ein Vorteil, denn in einer Population aus nur ausbeutenden Strategien ist diese Eigenschaft ein Nachteil. Freundliche Strategien können keine ausbeutenden Strategien sein, da diese an einem gewissen Punkt defektieren, so dass man durchaus eine positive Korrelation vom Erfolg von Freundlichkeit und Nachsicht einräumen kann: Beide sind vorteilhaft, wenn es viele freundliche Strategien gibt. Beide sind nachteilig, wenn es viele ausbeutende gibt.
(3) Eine andere Eigenschaft wurde nach dem zweiten Turnier als wichtig identifiziert: Die „Provozierbarkeit“, also die Neigung, eine Defektion des Gegners durch eigenes Defektieren zu bestrafen. Sie wurde erst hier wichtig, weil durch die Erkenntnisse des ersten Turniers vermehrt ausbeutende Strategien aufkamen. Man bemerke, dass Provozierbarkeit das Gegenteil von Nachsicht ist – zumindest solange man nicht unterscheiden kann zwischen unnötiger Defektion (z.B. ausgelöst durch leichte Noise oder vernachlässigbare Ausbeutungs-versuche) und Defektion mit schlechten Folgen, wenn nicht bestraft. Diese Unterscheidung erfordert aber eine sehr „schlaue“ Strategie, also hohe Komplexität, oder ist gar nicht möglich.[10] Ob es vorteilhaft ist, bei einer Defektion des Gegners nachsichtig zu sein (z.B. bei Joss, was kooperativ startet, dann mit p=0,1 defektiert und sonst TFT spielt) oder nicht (z.B. Hawk, Random) lässt sich nur sagen, wenn man die Strategie kennt (also ihre Handlungsvorschriften kennt) oder wenn man genügend Informationen im Spiel sammeln kann. Nach einer gegnerischen Defektion liegen diese aber oft noch nicht vor und sind daher meistens nur mit viel Aufwand oder gar nicht in Erfahrung zu bringen. Der Versuch kann im Turnier zudem viele Punkte kosten. Ob Nachsicht oder Provozierbarkeit besser ist, lässt sich daher oft nur nach dem Turnier mit Kenntnis der gegnerischen Strategien sagen. Vorher ist eine Vermutung über die Zusammensetzung des Strategiepools im Turnier hilfreich, um zu entscheiden, ob die Strategie eher nachsichtig oder provozierbar sein soll.
(4) Das führt zur Eigenschaft der „Verständlichkeit“, die Axelrod ebenfalls als vorteilhaft bezeichnet. Strategien, die sie nicht haben, können den Gegner zu falschen Entscheidungen führen, was beiden Punkte kosten kann, wenn z.B. Kooperation nicht zustande kommt bzw. Echo-Effekte auftreten. Das Problem aus dem vorherigen Absatz tritt also oft wegen mangelnder Verständlichkeit der anderen Strategie auf.
(5) Im evolutionären Kontext ist es von Vorteil, gut gegen sich selbst abzuschneiden, da erfolgreiche Strategien einen höheren Anteil in der Gesamtpopulation annehmen und öfter auf sich selbst treffen. Außerdem ist Unabhängigkeit wichtig, was bei ausbeutenden Strategien deutlich wird, die bei Vorhandensein von ausbeutbaren Strategien erfolgreich sind, während ihre Opfer aussterben. Zeitlich versetzt sterben dann aber auch die Ausbeuter aus, weil sie die Quelle ihres Erfolges ausgerottet haben.[11]
1.4 Analyse der Schwächen von TFT
(1) TFT ist zwar verständlich, selbst aber zu simpel, um den Gegner zu verstehen – es werden nur mechanisch die Züge des Gegners wiederholt. Dabei nutzt die Strategie das Potential der bisherigen Interaktionsgeschichte nur minimal aus, denn es wird nur auf den letzten Zug des Gegners zurückgegriffen. Eine Hauptschwäche (nach Axelrod; weil mit großem Verbesserungspotential) von TFT hat hier ihre Ursache: Das schlechte Abschneiden gegen Random, denn mit Kenntnis von nur einem Zug kann Random nicht erkannt werden. Gleiches ist der Fall in Spielumgebungen mit starken Noise-Effekten, die gegnerische Strategien ebenfalls wie Random erscheinen lassen, auch wenn sie es nicht sind.
(2) Als zweite Hauptschwäche ist die Unfähigkeit bekannt, Echo-Effekten wie gegen Joss zu begegnen. Nachsichtiges Verhalten wäre in dem Fall besser als auf die Provokation einzugehen, doch TFT ist zu simpel, um das zu erkennen. Nicht nur gegen Joss kann es diese Effekte geben, genauso wenig wie sie auch nur so geartet sein müssen. Folgende Tabelle zeigt zwei verschiedene Echo-Effekte anhand der ersten Züge in einem IPD von TFT gegen Joss und Pavlov[12] (C=1 und D=0):
Abbildung in dieser Leseprobe nicht enthalten
Gegen Joss gibt es zwei Stadien des Echo-Effekts: Zunächst gegenseitiges, versetztes Kooperieren/Defektieren und nach der zweiten Einstreuung von D durch Joss schließlich die gegenseitige Defektion, die nicht mehr rückgängig gemacht wird. Gegen Pavlov gibt es einen Echo-Effekt im Intervall von drei Zügen. In diesen drei Zügen ändern verschiedene Payoffs für Pavlov dessen Entscheidungskalkül derart, dass sich die Strategie zu verschiedenen Spielzügen veranlasst sieht (D,D,C). TFT reagiert mechanisch darauf und nach den drei Zügen hält Pavlov wieder Defektion für die bessere Wahl. Da im letzten Zug des Intervalls Kooperation gespielt wurde, antwortet TFT am Anfang des neuen Intervalls wieder mit C – es ist also wieder die Ausgangssituation aus Runde 1. Dieser Zyklus zieht sich nun ebenfalls bis zum Ende des Spiels hin, da keine der beteiligten Strategien intelligent genug ist, diese festgefahrene Situation (eng.: deadlock) zu beenden. Echo-Effekte definiere ich als zyklische Spielsituationen, die aus verschobenem Reaktionsverhalten aufeinander bestehen. Übliche Definitionen, es seien alternierende Kooperations-/Defektionszüge, greifen zu kurz, da andere Muster möglich sind. Für eine deterministische Strategie ergibt sich das Problem der Induktion: Der Autor kann nicht wissen, ob er alle Echo-Effekte kennt und somit die Strategie unter Umständen nicht mit den nötigen Informationen ausstatten, alle Echo-Effekte aufzulösen. Hinter den Strategienamen steht die durchschnittliche Punktzahl pro Runde und für TFT sind sie weit entfernt von den 3 Punkten, die angepeilt werden. Tatsächlich sind 3 Punkte nicht möglich gegen diese Strategien, aber leicht unter 3 Punkten wäre möglich bei einer nachsichtigeren Strategie (gegen Pavlov noch mehr Punkte als gegen Joss, weil diese immer wieder defektieren wird, da probabilistisch).[13]
(3) Es ist außerdem bekannt, dass sich TFT zu leicht mit gegenseitiger Defektion abfindet, seien sie nun durch Echo-Effekte oder andere Umstände entstanden, die sicherlich nicht alle antizipiert werden können. Diese Situationen bringen nur einen Payoff von 1, was – natürlich abhängig von den anderen Strategien – oftmals ein Friedensangebot in Form zweier unmotivierter C-Züge rechtfertigen könnte. Einer ist unzureichend, da sonst nur ein neuer Echo-Effekt produziert werden könnte, die TFT bisher nie ausgelöst hat (weil freundlich).
(4) Bei fester Rundenanzahl sollte der Endgame-Effekt berücksichtigt werden, da sonst zumindest in der letzten Runde unnötig Punkte verschenkt werden.
(5) TFT vergibt Ausbeutungspotentiale. Ob es tatsächlich eine Schwäche ist, hängt sehr stark von den gegnerischen Strategien ab. Vermutungen über einen Strategiepool könnten es rechtfertigen, vom Paradigma der Freundlichkeit abzurücken, um anfällige Strategien auszubeuten oder zumindest zu prüfen, ob es möglich ist. Einige Autoren werden hier erwidern, dass man dadurch eher Punkte verschenkt, denn erstens hat man durch den Prüfungsmechanismus, der zwangsläufig auch defektieren muss, einen Verlust, wenn keine Ausbeutungsmöglichkeit besteht. Und zweitens verschlechtert man seine Situation gegen Strategien wie Grim[14], gegen die es dann keine Kooperationsmöglichkeit mehr gibt. Aber:
“It appears that a strategy will not run into the trap of defection if it never defects first. But this is not the case. Suppose a strategy keeps playing [C] if its opponent defects, and defects forever once its opponent cooperates; then, any cooperating strategy will be defected against in interacting with it while most of defecting strategies will keep cooperating. If there is a[n] equal possibility of this reverse-GRIM strategy appearing in a game to that of GRIM, to cooperate or to defect has equal risk to invoke future defection. This means that there always exists the risk of the defection trap whether or not an identification mechanism is applied.”[15]
Unterstellen wir aber, dass die Autoren von Strategien in einem IPD-Turnier gewinnen wollen, die Strategien also ihr Ergebnis zu maximieren trachten, dann wurde bei dieser Grim -Version schlechte Arbeit geleistet. Den Gegner für seine Ausbeutung zu belohnen ist unsinnig und läuft dem Wesen des Spiels (also der Payoffverteilung) entgegen, so dass Grim öfter auftreten dürfte als die beschriebene Variante, was in die Vermutung über den zu erwartenden Strategiepool einfließen sollte. Das frühe Aufgeben der Freundlichkeit dürfte einen geringeren zu erwartenden Payoff bringen als das Prüfen nach möglicher Ausbeutbarkeit, da Strategien wie TFT sehr populär sowie ausbeutungsresistent sind und Grim immer noch häufig anzutreffen ist. An diesen Annahmen hängt es, ob der Verzicht auf Ausbeutung als Vor- oder Nachteil anzusehen ist.
(6) Weitere Nachteile von TFT sind weniger relevant für ein Axelrod-ähnliches IPD-Turnier. Dazu zählt vielleicht die zu starke Provozierbarkeit in leicht noise-verzerrten Spielumgebungen, da sich dort Nachsicht für eine bessere Kooperation meistens auszahlt. Eine Schwäche, die von evolutionären Spieltheoretikern bemängelt wird, ist, dass eine Population TFT von neutral mutants (vom Verhalten her nicht von TFT zu unterscheiden, also freundliche Strategien) unterlaufen werden kann. TFT sei also „nur“ kollektiv stabil, dabei wurde bewiesen, dass keine pure Strategie stabiler, also evolutionär stabil, sein kann.[16]
2. Realisierung von Verbesserungen für TFT
TFT ist in IPD-Turnieren eine gute Strategie, das ist bekannt durch viele Autoren wie Axelrod und zeigt sich bei fast jedem Computerturnier. Wie die Sektion über Schwächen aber zeigt, hat TFT Potentiale, welche – einmal genutzt – eine noch robustere Strategie ermöglichen. TFT stellt daher eine gute Ausgangsstrategie dar, an die vielleicht nur Pavlov heranreicht.[17] Um das Ziel nicht aus den Augen zu verlieren: Eine beste Strategie kann man nicht erschaffen, wohl aber eine robuste Strategie, die sich in möglichst vielen Umgebungen (also Setting des Turniers und Strategiepool) gut schlägt.
Da es allgemein schwerer ist, neue Stärken ohne neue Schwächen einzuführen, sollen erst einmal Schwächen so weit wie möglich neutralisiert werden. Dabei soll obige Kritik aufgegriffen werden, dass sich TFT nur einen Zug merkt. Würde die Erinnerungskapazität erweitert und genutzt, ließen sich die zwei Hauptschwächen – also gegen Random und Echo-Effekte – ausbessern. Die folgenden Verbesserungen sind daher passiv, d.h. sie ändern das Verhalten von TFT nicht, wenn es nicht nötig ist bzw. sich nicht lohnt. Das Anlegen einer Züge-History erfordert keine Änderung im Verhalten mit dem Gegner, genauso wenig wie die Auswertung der Züge. Erst wenn der Schluss getroffen wurde, das bisherige Verhalten war suboptimal, dann wird vom Verhalten eines normalen TFT -Individuums abgewichen, z.B. permanente Defektion gegen Random. Durch die beschränkten Möglichkeiten im IPD können Erkennungsmechanismen aber selten hundertprozentig zuverlässige Identifikationen erreichen, so dass der Begriff der Passivität hier etwas Fehlerspielraum benötigt, was aber an jeweiliger Stelle angemerkt wird.
2.1 Geringen Payoff gegen Random verbessern
Zunächst nehmen wir uns der Random -Schwäche an, welche die hier diskutierte TFT -Variante auch bei starken Noise-Effekten verbessert – ich nenne sie augmentedTFT, kurz: aTFT. Dabei ist allgemein folgendes zu tun: Die Strategie sollte wie TFT beginnen, dabei versuchen Random zu identifizieren und bei Feststellung entsprechend reagieren, also ab dann immer defektieren. Kritisch sind dabei die Punkte Zuverlässigkeit und Schnelligkeit, welche sich leider teilweise gegenseitig ausschließen: Will man eine Entscheidung schnell herbeiführen, könnte es eine Fehlidentifikation geben und wartet man auf eine recht sichere Identifikation, hat man mit dem TFT -Verhalten bis dahin viele Punkte verschenkt.
[...]
[1] Vgl. Hegselmann/Flache 2000: S. 76/77, demnach wird Bedingung (2) oft als optional betrachtet.
[2] Vgl. Ross (1997): Chapter 2.5 für spieltheoretische Lösungskonzepte.
[3] Vgl. Ross (1997): Chapter 2.1 bezüglich kardinalen und ordinalen Nutzen bzw. Nutzenfunktionen.
[4] Axelrod (1984): S. 12 – Bedingung: Die Zukunft hat hinreichend große Bedeutung.
[5] Vgl. Li (2006): S. 94f. für ein Beispiel eines Identifikationsmusters.
[6] Vgl. Axelrod (1984): Kapitel 2 für ausführliche Analyse, hier wird nur das Relevante aufgearbeitet.
[7] Vgl. Axelrod (1984): S. 14.
[8] V(Hawk, Hawk) ≥ V(x, Hawk) [= Payoff x gegen Hawk ] für alle möglichen Strategien x.
[9] Natürlich nur, wenn auf die Defektion der ersten Runde folgend reagiert wird (siehe Provozierbarkeit).
[10] Vgl. Li (2006): S. 89.
[11] Siehe Anhang A für veranschaulichende Grafiken aus evolutionären Simulationen.
[12] Vgl. S. Y. Chong et al. (2006a): S. 30 für Beschreibung der Strategie; sie startet mit Defektion und ändert das Verhalten aus vorherigem Zug immer, wenn Payoff 0 oder 1 war, ansonsten bleibt sie dabei.
[13] Für Abgrenzung und Definition der Arten von Strategien, siehe Anhang B.
[14] Ist freundlich, kooperiert also solange, bis der Gegner erstmals defektiert und defektiert dann selbst für immer.
[15] Li (2006): S. 98.
[16] Vgl. Bendor/Swistak (1996): S. 120f.
[17] Vgl. Nowak/Sigmund (1993) für allgemeine und evolutionäre Aspekte und S. Y. Chong et al. (2006b): S.17 für empirischen Erfolg von Pavlov bzw. dessen Derivate und Mutanten.
- Citation du texte
- Christoph Siemroth (Auteur), 2008, Die Strategie Tit For Tat im iterierten Prisoner's Dilemma, Munich, GRIN Verlag, https://www.grin.com/document/94307
-
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X.