Bei einem Markov-Entscheidungsproblem handelt es sich um ein Entscheidungsproblem, bei dem der Nutzen eines Agenten von einer Folge von Entscheidungen abhängig ist.
Markov-Entscheidungsprobleme können zur Modellierung eines breiten Feldes von echten Problemen dienen, allerdings haben echte Probleme in der Regel sehr große Aktions- und Zustandsräume und sind damit sehr rechenaufwendig zu lösen bzw. zu approximieren.
Während der Mensch von Natur aus sehr gut darin ist, wichtige Informationen aus großen Datenmengen herauszufiltern, gestaltet sich dies für Computer schwieriger. Der Mensch besitzt die Fähigkeit, Probleme durch Kreativität und Abstraktionsvermögen sehr effizient zu lösen, während der Computer hierfür Algorithmen, also eindeutig vorgeschriebene
Handlungsvorschriften zur Problemlösung, benötigt. Die Herausforderung besteht nun darin, Algorithmen zu entwickeln, die die Gegebenheiten und Strukturen eines Problems nutzen, um dieses möglichst schnell und effizient zu lösen. Es gibt also
keinen allgemein besten Algorithmus, sondern nur Algorithmen, die zur Lösung eines bestimmten Problems besonders gut geeignet sind.
Das Problem das in dieser Arbeit untersucht wird, ist die Steuerung einer Intensivstation (oder ICU vom englischen Intensiv Care Unit). Intensivstationen sind für den Bereich
des Operations Research besonders interessant, da sie durch ihren hohen Personalbedarf und die benötigte Vielzahl an medizinischen Apparaten zu den kostenintensivsten Abteilungen im Krankenhaus gehören. Die Intensivstation verursacht 20% der Gesamtkosten eines Krankenhauses, hat aber dabei nur einen Anteil von 5% der Betten. Zu den hohen Kosten einer Intensivstation kommt hinzu, dass diese die Patienten mit
den alarmierendsten Gesundheitszuständen versorgen soll. Die Intensivstation ist also sowohl die kostenintensivste als auch die von der medizinischen Notwendigkeit bedeutsamste Station, weswegen sie sich besonders als relevanter Forschungsgegenstand eignet.
Die Frage lautet also: Wie muss ein Algorithmus aussehen, der die beste Strategie zur Entscheidungsfindung in einer Intensivstation bestimmen soll?
Um diese Fragestellung zu operationalisieren, werden zunächst die Grundlagen im theoretischen Teil erläutert. Dieser erklärt Grundbegriffe und soll als eine Einführung in das algorithmische Denken dienen. Im praktischen Teil wird als Erstes ein Modell gebildet, das die Abläufe in einer Intensivstation in Form eines Markov-Entscheidungsproblems formuliert. [...]
Inhaltsverzeichnis
1 Einleitung
2 Grundlagen
2.1 Das Markov-Entscheidungsproblern
2.1.1 Das Markov-Entscheidungsproblern im diskreten Fall
2.1.2 Das Markov-Entscheidungsproblern im stetigen Fall
2.2 Dynamische Programmierung
2.2.1 Bellman-Gleichung und der Fluch der Dimensionalität
2.2.2 Value Iteration
2.2.3 Policy Iteration
3 Simulationsbasierte Algorithmen
3.1 Bestärkendes Lernen und Simulai ionsverfahren
3.1.1 Temporal-Difference-Learning
3.1.2 Q-Learning und SARSA-Methode
3.1.3 Roi loin-Verfahren und Hindsight-Optimierung
3.2 Adaptive Algorithmen
3.2.1 Problem des n-armigen Banditen
3.2.2 Greedy- und e- Greedy-'Verfahr en
3.2.3 Boltzmann-Exploration und Referenzgewinn
3.2.4 Persuit-Verfahren
3.2.5 ľ pper-Conlidence-Bound-Sampling
3.3 Evolutionäre Algorithmen
3.3.1 Evolutionäre Policy Iteration
3.3.2 Evolutionärer Random-Policy-Search
3.3.3 Weitere evolutionäre Verfahren
3.4 SAMW Algorithmus
3.4.1 Simulierte langsame Abkühlung
3.4.2 Gewichtete-Mehrheit und multiplikative-Gewichtung
3.4.3 Beschreibung SAMW
3.5 Analyse der Laufzeiten
4 Implementierung am Beispiel: Intensivstation
4.1 Intensivstationen
4.2 Modellierung der Problemstellung
4.3 Beschreibung des Lösungsalgorithmus
4.4 Implementierung des Lösungsalgorithmus
4.4.1 Standardverfahren
4.4.2 Betrachtung verschiedener Verteilungsannahmen
4.4.3 Erweiterung 1: Betrachtung benachbarter Äste
4.4.4 Erweiterung 2: Betrachtung mehrerer Stufen
4.4.5 Erweiterung 3: ASSI
5 Evaluierung
6 Ausblick
7 Literaturverzeichnis
8 Appendix
8.1 Abbildungen
8.2 Pseudocodes
8.3 Variablenbeschreibung
8.4 Verteilurigsannahmen
8.4.1 Beschreibung des verwendeten Datensatzes
8.4.2 Verteilungsannahrne der LOS
8.4.3 Verteilungsannahrne der Ankünfte
8.5 Tests und Paranietereinstellungen
Tabellenverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Abbildungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einleitung
Bei einem Markov-Entscheidungsproblern handelt es sich um ein Entscheidungsproblem, bei dem der Nutzen eines Agenten von einer Folge von Entscheidungen abhängig ist. Bei den Zustandsübergängen gilt hierbei die Markov-Annahme: Das bedeutet, die Wahrscheinlichkeit einen Zustand s' vom Zustand s aus zu erreichen, ist nur vom gegenwärtigen Zustand s und nicht von Zuständen vor s abhängig. Die Lösung dieses Markov-Entscheidungsproblems ist eine Strategie π : S ^ A die zu jedem Zustand s die Aktion a ausgibt, mit der der Gewinn über den betrachteten Zeithorizont hinweg maximiert wird, Markov-Ihn Scheidungsprobleme können zur Modellierung eines breiten Feldes von echten Problemen dienen, allerdings haben echte Probleme in der Regel sehr große Aktions- und Zustandsräume und sind damit sehr rechenaufwendig zu lösen bzw, zu approximieren.
Während der Mensch von Natur aus sehr gut darin ist, wichtige Informationen aus großen Datenmengen herauszufiltern, gestaltet sich dies für Computer schwieriger. Der Mensch besitzt die Fähigkeit, Probleme durch Kreativität und Abstraktionsvermögen sehr effizient zu lösen, während der Computer hierfür Algorithmen, also eindeutig vorgeschriebene Handlungsvorschriften zur Problemlösung, benötigt. Die Herausforderung besteht nun darin, Algorithmen zu entwickeln, die die Gegebenheiten und Strukturen eines Problems nutzen, um dieses möglichst schnell und effizient zu lösen. Es gibt also keinen allgemein besten Algorithmus, sondern nur Algorithmen, die zur Lösung eines bestimmten Problems besonders gut geeignet sind.
Das Problem das in dieser Arbeit untersucht wird, ist die Steuerung einer Intensivstation (oder ICU vorn englischen Intensiv Care Unit), Intensivstationen sind für den Bereich des Operations Research besonders interessant, da sie durch ihren hohen Personalbedarf und die benötigte Vielzahl an medizinischen Apparaten zu den kostenintensivsten Abteilungen im Krankenhaus gehören. Die Intensivstation verursacht 20% der Gesamtkosten eines Krankenhauses, hat aber dabei nur einen Anteil von 5% der Betten,1 Zu den hohen Kosten einer Intensivstation kommt hinzu, dass diese die Patienten mit den alarmierendsten Gesundheitszuständen versorgen soll. Die Intensivstation ist also sowohl die kostenintensivste als auch die von der medizinischen Notwendigkeit bedeutsamste Station, weswegen sie sich besonders als relevanter Forschungsgegenstand eignet. Die Frage lautet also: Wie muss ein Algorithmus aussehen, der die beste Strategie zur Entscheidungsfindung in einer Intensivstation bestimmen soll?2
Um diese Fragestellung zu operationalisieren, werden zunächst die Grundlagen im theoretischen Teil erläutert. Dieser erklärt Grundbegriffe und soll als eine Einführung in das algorithmische Denken dienen. Im praktischen Teil wird als Erstes ein Modell gebildet, das die Abläufe in einer Intensivstation in Form eines Markov-Entscheidungsproblerns formuliert. Danach wird ein Algorithmus beschrieben, der die spezifischen Eigenschaften des Problems ausnutzt, um dadurch möglichst schnell eine effiziente Strategie zu finden. Anschließend wird dieser evaluiert.
Die Untersuchung verläuft hierbei wie folgt: In Kapitel 2 wird zunächst der Aufbau eines Markov-Entscheidungsproblerns erklärt, bevor dann einige Grundlagen der Dynamischen Programmierung erläutert werden. Diese wären die grundlegende Bellman- Gleichung, welche Probleme der sogenannte “Fluch der Dimensionalität” bei deren Lösung hervorruft und wie die beiden Algorithmen Value- und Policy Iteration versuchen diesen zu umgehen. Kapitel 3 handelt dann von fortgeschritteneren Methoden zur Problemlösung. Hierfür bietet Kapitel 3.1 zunächst eine Einführung in das bestärkende Lernen, also die Form des künstlichen Lernens die für die Generierung von Algorithmen zur Optimierung besonders von Bedeutung ist. Die Methoden des Temporal Difference Learning, des Q-Learnings und das SARSA sowie das Rollout-Verfahren werden hierbei vorgestellt. Das Kapitel 3.2 beschäftigt sich dann mit den adaptiven Verfahren. Um zu erläutern, wie adaptive Verfahren funktionieren wird zunächst das Problem des rnelir- armigen Banditen betrachtet. Danach werden die grundlegenden Verfahren: Greedy. c-Greedy, Boltzmann Exploration und Pursuit-Verfahren, erläutert. Im Anschluss folgt ein etwas detaillierterer Blick auf das ľpper-Conlidence-Bound-Sampling (UCB). Kapitel 3.3 befasst sich mit evolutionären Algorithmen und dabei besonders mit evolutionärer Random-Policy-Search und evolutionärer Policy Iteration. Kapitel 3.4 bildet das letzte Kapitel des theoretischen Teils. Hier werden die Verfahren, simulierte Abkühlung und der Multiplicative-Weights-Algorithm, sowie eine Kombination aus beiden, vorgestellt. Kapitel 4.1 ist das erste Kapitel des praktischen Teils. Hier werden zunächst die Gegebenheiten und Besonderheiten einer Intensivstation erläutert und in Kapitel 4.2 in einen Modellrahmen gebracht. In Kapitel 4.3 wird dann der Algorithmus zur Lösung des in Kapitel 4.2 formulierten Problems vorgestellt, und anschließend in Kapitel 5 wird dieser evaluiert. Dabei wird eine Sensitivitätsanalyse durchgeführt, um zu sehen welche Ergebnisse der Algorithmus bei verschieden gewählten Eingangspararnetern liefert. Damit ist gemeint, welche Strategien er, unter verschiedenen Bedingungen, vorschlägt. Anschließend wird diskutiert, inwieweit diese Strategien sinnvoll erscheinen. Kapitel 6 bildet den Ausblick. In diesem wird auf Fragestellungen verwiesen, die sich im Rahmen der Arbeit nicht klären ließen.
2 Grundlagen
2.1 Das Markov-Entscheidungsproblem
Markov-Entscheidungsproblerne (oder auch Markov-Hut Scheidungsprozesse oder MDPs für Markov decision processes) sind hilfreich, urn ein weites Spektrum von Optimierungsproblemen zu lösen. Sie können zur Modellierung von Prozessen im Bereich der Ökonomie, des Operations Research, des Ingenieurwesens, der Informatik oder der Sozialwissenschaft verwendet werden.3 Durch Redefinitionen einzelner Variablen kann nahezu jedes dynamische Programm als Markov-Entscheidungsproblem formuliert werden.4 5 Markov-Ketten eignen sich hierbei immer dann sehr gut zur Modellierung einer zufälligen Zustandsänderungen eines Systems, falls Grund zu der Annahme besteht, dass diese Zustandsänderungen nur über einen begrenzten Zeitraum hinweg Einfluss aufeinander haben (elementare Markov-Eigenschaft) oder sogar gedächtnislos sind (schwache Markov-Eigenschafi ). ’ Markov-Entscheidungsproblerne wurden spätestens durch Bellmans Arbeiten in den späten 1950ern bekannt.6 7 Als grundlegendes Werk auf diesem Gebiet, sei auch Ronald A. Howards Buch “Dynamic Programming and Markov Processes” aus dem Jahre 1960 hervorzuheben. ' Bei Markov-Eni Scheidungsproblemen wird zwischen Problemen in diskreter Zeit (DDPs) und Problemen in stetiger (auch kontinuierlicher) Zeit (GDI's) unterschieden. Da das Problem im praktischen Teil als Problem in diskreter Zeit modelliert wird, liegt der Fokus der Arbeit auf DDPs. Der Vorteil einer zeitdiskreten Modellierung gegenüber einer zeitstetigen Modellierung liegt beim damit verbundenen Rechenaufwand. Im praktischen Teil wird schließlich ein MDP simuliert. Dabei erscheint es sinnvoll, die Zustände als eine endliche Folge anzunehmen, nur diskret verteilte Zeitpunkte zu betrachten und die dazwischen liegenden Zustände als konstant anzusehen. Alles in allem bietet also die diskrete Modellierung für unsere Simulationen in Kapitel 4.4 eine relativ genaue Abbildung des Systems, bei einem relativ geringen Rechenaufwand.8 Dennoch werden aber neben DDPs auch CDPs der Vollständigkeit halber kurz beschrieben.
2.1.1 Das Markov-Entscheidungsproblem im diskreten Fall
In diesem Abschnitt wird das Markov-Entscheidungsproblem für den diskreten Fall vorgestellt. Wie in Abbildung la9 zu sehen, hängt die Entwicklung des zugrunde liegenden Entscheidungsmodells hierbei generell sowohl von Entscheidungen als auch vorn Zufall ab. Liegt kein Zufall vor. spricht man von einem deterministischen Markov- EntScheidungsprozess, und wenn keinerlei Entscheidungen getroffen werden können, handelt es sich um einen einfachen Markov-Prozess,10
Ein diskretes Markov-Entscheidungsproblem ist gegeben durch einen Tupel (S, A, T, R). Es beschreibt S die Menge der Zustände mit den Zuständen s E S, A ist der Aktionsraum mit den Aktionen a E A, A(s) Ç A ist dabei die Menge der Aktionen, die im Zustand s durchgeführt werden können, T ist ein Operator zur Beschreibung des Effektes einer Aktion auf jeden anderen Zustand, und Ra(s,s') ist die Auszahlung beim Übergang von Zustand s zum Zustand s'. Im deterministischen System gilt für den Operator:
T : S x A ^ S.11 (2.1)
Dies bedeutet er spezifiziert für jeden Zustand und jede Aktion einen neuen Zustand. In stochastischen Systemen gilt:
T : S x A ^ Prob(S), (2.2)
der Operator gibt also lediglich eine Wahrscheinlichkeitsverteilung über die nächsten Zustände an. Hierbei ist:
Pa (s, s') = P(st+i = s' | st = s, at = a) (2.3)
die Wahrscheinlichkeit dafür, dass Aktion a in Zustand s zur Zeit t zu Zustand s' im Zeitpunkt t + 1 führen wird. Eine Strategie π ist eine Abbildung von S auf A und beschreibt, welche Aktion in welchem Zustand ausgeführt wird. Über die Wahl einer optimalen Strategie π€Π wird die Optimierung durchgeführt. Die gewählte Strategie bestimmt hierbei die zu wählenden Aktionen. Eine Folge:
π = {ft} = {fi,f2--) (2.4)
von Funktionen f E F (Menge der Funktionen) heißt deterministische Markov-Strategie, Eine Funktion:
f : S ^ A mit f (s) E A(s) E S (2.5)
nennt sich hierbei Entscheidungsregel, Nun lässt sich eine Strategie bewerten: im deterministischen System durch Addition der Gewinne und im stochastischen System durch Addition der zu erwartenden Gewinne, Hierfür muss das MDP entweder endlich oder diskontiert sein, da wir ansonsten unendlich Gewinne aufaddieren müssten. Es wird die Wertfunktion Vw : S ^ R als Zielfunktion definiert. Diese repräsentiert den erwarteten Wert, wenn die Strategie π aus dem Zustand s heraus verfolgt wird. Beim diskontierten unendlichen MDP lautet die Wertfunktion:
Abbildung in dieser Leseprobe nicht enthalten
Die optimale Wertfunktion ergibt sich durch Wahl der optimalen Strategie:
Abbildung in dieser Leseprobe nicht enthalten
Beziehungsweise geschrieben als obere Schranke in Abhängigkeit der optimalen Strategie:
V*(s) := supV(n,s). (2,8)
πeΠ
Bei endlichen MDPs gilt im letzten Zustand, da keine weiteren zukünftigen Erträge folgen:
Vr,t=o(s) = R(s,a).u (2.9)
Für alle anderen Zustände ergibt sich:
Vw,t=o(s) = R(s,a)+ T(s,a,s') · YVK,t-i(s').u (2.10) s'eS
2.1.2 Das Markov-Entscheidungsproblem im stetigen Fall
Wenn nun hingegen gefordert wird, dass der Entscheider zu jedem Zeitpunkt, und nicht nur zu diskreten Zeitpunkten, Entscheidungen treffen kann, wird ein stetiger Markov- EntScheidungsprozess benötigt. Ein stetiges Markov-Entscheidungsproblem ist gegeben durch einen Tupel (S, A, q(·, ·, )R),15 16 Wie beim diskreten Problem beschreibt nun wieder S den Zustandsraum, A den Aktionsraum und R den Raum der Auszahlungsfunktionen, Ein Zustand wird mit s bezeichnet. Die Auszahlungsfunktion R(s, a) wird nun durch s und a bestimmt, also welchen Gewinn die Aktion a im Zustand s bringt. Ein Element q(s'|s, a) bezeichnet die Übergangsratenwahrscheinlichkeit von s nach s', wenn a ausgeführt wurde. Die zu maximierende Wertfunktion lautet:
V*(s) = max(R(s,a)+ ƒ q(s'ls,a) · γν*(s')ds').u (2,11) aeA s'eS
2.2 Dynamische Programmierung
Es wird ersichtlich, dass es sich bei einem Markov-Entscheidungsproblern um ein Optimierungsproblem handelt, welches aus vielen gleichartigen Teilproblemen besteht. Die optimale Lösung des Markov-Entscheidungsproblems ergibt sich aus den optimalen Lösungen der Teilprobleme für jeden einzelnen Zustand. Damit gilt das Optimalitätsprin- zip von Bellman und die Methoden der Dynamischen Programmierung können angewandt werden.
In der dynamischen Programmierung werden als Erstes die optimalen Lösungen der kleinsten Teilprobleme berechnet und danach zu einer Lösung eines nächstgrößeren Teilproblems zusammengesetzt. Dieses Verfahren wird fortgesetzt, bis das ursprüngliche Problem, in diesem Fall das Markov-Entscheidungsproblern. gelöst wird. Einmal berechnete Teilergebnisse werden hierbei gespeichert. Bei nachfolgenden Berechnungen gleichartiger Teilprobleme wird auf diese Zwischenlösungen zurückgegriffen, anstatt diese jedes Mal erneut zu berechnen. Im Fall eines Markov-Entscheidungsproblems bedeutet dies, dass Auszahlungen vorn Übergang zu bestimmten Zuständen gespeichert werden. Durch Einsatz der Dynamischen Programmierung werden kostspielige Rekursionen vermieden, da bereits bekannte Teilergebnisse wiederverwendet werden können.
2.2.1 Bellman-Gleichung und der Fluch der Dimensionalität
Da das Interesse im Folgenden auf stochastischen MDPs liegt, wird die Wertfunktion aus Abschnitt 2.1.1 (Gleichung 2,6). die so genannte Bellmann-Gleichung, explizit für einen stochastischen MDP aufgeschrieben:
Abbildung in dieser Leseprobe nicht enthalten
beziehungsweise irn Optimum:
Abbildung in dieser Leseprobe nicht enthalten
Hierbei fällt auf. dass es sich um eine Rekursion handelt.1' Dies bedeutet, der Wert νπ(s) ergibt sich durch eine Verknüpfung mit dem bereits vorhandenen Wert νπ(s'). Die rekursive Eigenschaft der Bellman-Gleichung kann mittels der Q-Funktion veranschaulicht werden: Während νπ(s) der erwartete Wert ist, wenn aus dem Zustand s heraus der Strategie π gefolgt wird, ist Qw(s, a) der erwartetet Wert, wenn Aktion a im Zustand s ausgeführt und danach wiederum der Strategie π verfolgt wird.17 18 Nun wird ersichtlich, dass Qk und νπ rekursiv durch die jeweilig andere Funktion definiert werden können. Die Q-Funktion lautet:
Abbildung in dieser Leseprobe nicht enthalten
νπ(s) ergibt sich durch Ausführung der Aktion a spezifiziert durch die Strategie π und einem anschließenden Beibehalten der Strategie π:
Abbildung in dieser Leseprobe nicht enthalten
Im Optimum gilt:
Abbildung in dieser Leseprobe nicht enthalten
Daraus folgt:
Abbildung in dieser Leseprobe nicht enthalten
Bei der Bellman-Gleichung handelt es sich um eine Kontraktion,19 also um eine Abbildung in sich selbst. Dies ist von Bedeutung, weil diese Eigenschaft von Verfahren, welche wiederholt approximieren, genutzt wird. Dies geschieht so zum Beispiel auch bei der im Folgenden zu erläuternden Value Iteration,20 Für die Lösung von Bellrnan-Gleichungen können drei verschiedene Verfahren verwendet werden. Bei CDPs ist dies mit Hilfe von Euler-Gleichungen und Euler-Operatoren möglich und mit der Methode der unbestimmten Koeffizienten,21 Bei endlichen DDPs, welche im Folgenden im Speziellen thematisiert werden, bietet sich die Methode der Rückwärtsinduktion an. Zum Verständnis dieser Methode bietet sich eine Betrachtung des Bellmanschen Optimalitätsprinzips an: „An optimal policy has the property that whatever the initial state and initial decision are, the remaining decisions must constitute an optimal policy with regard to the state resulting from the first decision,“22 Geht man den Gedanken, class eine Entscheidungsfolge immer optimal sein muss, unabhängig davon, was die vorherigen Entscheidungen waren, bis zur letzten Entscheidung durch, wird klar, dass auch die allerletzte Entscheidung optimal sein muss. Nun bestimmt man für alle Zustände bis zur letzten betrachteten Periode die optimalen Entscheidungen, danach für die Vorletzte usw,, bis man am Startzeitpunkt angekommen ist. Für jeden bestimmten Startzustand so gibt es nun eine optimale Entscheidungsfolge, Dieses Verfahren maximiert zwar die Wertfunktion. jedoch ist es für Markov-Prozesse mit großem Zeit-. Zustands- und Aktionsraum sehr rechenaufwendig. Wenn größere Optimierungsprobleme per Rückwärtsinduktion gelöst werden sollen, muss die Zielfunktion für jede Kombination von Werten berechnet werden. Bellman sprach hierbei vorn Fluch der Dimensionalität (Original: curse of dimensionality). In einem Markov-Eni Scheidungsprozess handelt es sich nun gar um einen dreifachen Fluch der Dimensionalität. bezogen auf den Zustandsraum, den Auszahlungsraum und den Aktionsraum. Hat die Zustandsvariable st = (sti, st2··, sti..., stI) ƒ Dimensionen und kann L verschiedene Werte annehmen, liegen L1 verschiedene Zustände vor. Analog verhält es sich mit den Auszahlungen und Aktionen.2'* Darum sollen im Folgenden Algorithmen vorgestellt werden, die mittels verschiedener Heuristiken effizienter und schneller als einfache Rückwärtsinduktion, M a rkov-Fni Scheidungsprobleme lösen können.
2.2.2 Value Iteration
Value Iteration ist der intuitivste und am weitesten verbreitete Algorithmus der Dynamischen Programmierung. Für Probleme über einen begrenzten Zeithorizont, handelt es sich dabei um eine Rückwärtsinduktion mit Abbruchkriterium. Bei der Value Iteration wird wie folgt vorgegangen: Zunächst wird B(S) als Menge gebundener realer Wertfunktion und Φ als ein Element dieser Menge definiert. Des Weiteren definieren wir einen Operator T als T : B(S) ^ B(S) durch:
diskontierte zukünftige Wertfunktionen kleinsteobereSchranke ^ ^
Abbildung in dieser Leseprobe nicht enthalten
jetziger Gewinn
für ФсВ (S) und seS. Die Wertiterationsfunktion vom Zustand s im Iterationsschritt k bezeichnen wir als: vk (s)eB(S), Im Initialisierungsschritt wird: v0 = 0 gewählt. Für jedes seS berechnet der Algorithmus:
Abbildung in dieser Leseprobe nicht enthalten
Nun sei {vn} eine Folge von Wertiterationsfunktionen definiert durch: vn = T(vn-i) wobei n = 1, 2...· und v0eB(s) zufällig gewählt sind. Das Verfahren aktualisiert iterativ durch Durchführung des Operators T : B(S) ^ B(S) die gegebene Wertfunktion. Durch mehrfache Anwendung des Operators T wird eine gegebene Wertfunktion nach und nach verbessert. Es wird also für jedes veB(s) eine neue Wertfunktion durch Berechnung für jedes seS erreicht. Value Iteration wird deswegen auch Verfahren der wiederholten Approximationen genannt. Falls:
Abbildung in dieser Leseprobe nicht enthalten
gilt, bricht das Verfahren ab, und das aktuelle vk wird als ausreichend gut bewertet und die zugehörige Strategie ausgewählt. Hierbei ist ε ein zuvor festgelegter Schwellenwert, Dies kann so interpretiert werden, dass eine weitere Iteration nicht mehr notwendig ist, da sich die Wertfunktionen ausreichend angeglichen haben, also konvergiert sind. Es handelt sich also um ein Fixpunktverfahren, Bei der Wahl von e besteht ein Tradeoff, Je kleiner e gewählt wird, desto präziser arbeitet das Verfahren, Dies bedeutet, es werden auf der einen Seite bessere Ergebnisse erzielt, auf der anderen verlängert sich jedoch die Laufzeit des Verfahrens,24 Für alle к = 1, 2, 3... erfüllt die Value Iteration Funktion:
Abbildung in dieser Leseprobe nicht enthalten
Dies bedeutet T ist eine Kontraktion, also eine Abbildung in sich selbst und führt gemäß Banachschem Fixpunktsatz25 zu einer Konvergenz von vk gegen v*. Die Zeitkomplexität bei Value Iteration wächst quadratisch im Zustandsraum und linear im Aktionsraum.26
2.2.3 Policy Iteration
In der Praxis hat sich gezeigt, dass die Strategie oftmals lang vor dem Gewinn zur Optimalität konvergiert,27 ' Der Grund hierfür lässt sich mit folgender Überlegung veranschaulichen: Für einen unendlichen Zustandsraum benötigt die Value Iteration unendlich viele Iterationen, bei einer endlichen Anzahl an Strategien, Weswegen eine Iteration über die möglichen Strategien effizienter erscheint. Um diesen Umstand zu nutzen, entstand die Methode der Policy Iteration, Es wird ein Operator definiert als Tn : B(S) ^ B(S):
Abbildung in dieser Leseprobe nicht enthalten
Hierbei wird mit Strategien operiert, nicht wie in Gleichung 2,18 mit Aktionen, Wie Abbildung 2 zeigt,28 läuft das Verfahren in zwei Schritten ab: dem Evaluationsschritt (Policy Evaluation) und dem Verbesserungsschritt (Policy Improvement), Der zunächst zu erläuternde Evaluationsschritt basiert auf der Tatsache, dass für jegliche Strategie πeΠ eine einzige korrespondierende ФеВ(S) existiert, so dass für seS gilt: Tn(Φ)ϋ) = Φϋ) = Vn(s). Nun erzielt der Evaluationsschritt eine Wertfunktion Vn für eine gegebene Strategie π durch Lösung der zugehörigen Fixpunktfunktionsgleichung über alle Zustände s:
Abbildung in dieser Leseprobe nicht enthalten
Der Verbesserungsschritt nimmt ein gegebenes π und generiert ein neues π' durch erfüllen der Bedingung T(Vn)(s) = Tn (Vn)(s). Der Schritt stellt sicher, dass die neue Wertfunktion von π' nicht schlechter sein darf als die von π. Formal geschieht dies durch die Bedingung:
Abbildung in dieser Leseprobe nicht enthalten
Policy Iteration führt, wie auf Abbildung 3 zu sehen,29 beide Schritte bei jeder Iteration alternierend aus, ausgehend von einer zufälligen Strategie πο zu Beginn. Es kommt zum Abbruch sobald:
Abbildung in dieser Leseprobe nicht enthalten
dann ist die optimale Strategie gefunden.30 Eine Modifikation hierzu bietet die modifizierte Policy Iteration oder auch optimistische Policy Iteration. Diese führt nur eine begrenzte Anzahl an Evaluierungsschritten durch.'31 Andere Variationen, zur Handhabung größerer MDPs sind z. B. die Mehrstufen-Vorausschau (Multistage-lookahead)32 und die asynchrone Policy Iteration. Bei der Mehrstufen-Vorausschau wird, anstatt nur die beste Aktion für eine Stufe auszuwählen, auf mehrere Stufen vorausgeschaut, um die nach к Stufen entstehenden Kosten als finale Kosten zu betrachten. Bei der Asynchronen Policy Iteration wiederum kann man sowohl die Anpassung der Strategie als auch die Anpassung der Wertfunktion nur für bestimmte Zustände durchführen.33
3 Simulationsbasierte Algorithmen
Dieses Kapitel beschäftigt sich mit komplexeren Verfahren, Die Auswahl der im Folgenden vorgestellten sirnulationsbasierten Algorithmen ist so ausgerichtet, dass ein möglichst breites Spektrum verschiedener Herangehensweisen und Lösungsverfahren vermittelt wird. Es ist nicht möglich den einen schnellsten Algorithmus herauszufinden, da die Leistung eines Algorithmus, davon abhängt, ob er auf ein passendes Problem angewendet wird.34 Da von Problem zu Problem verschiedene Gattungen von Algorithmen unterschiedlich leistungsfähig sind, empfiehlt sich eine Betrachtung möglichst unterschiedlicher Verfahren und Techniken. Zunächst werden einige grundlegende Verfahren des bestärkenden Lernens erläutert, danach folgt ein Überblick über die adaptiven Verfahren: Diese sollen verdeutlichen wie Algorithmen im Stande sind, eine bestimmte Auswahl nicht zufällig, sondern adaptiv, also quasi mitdenkend. zu treffen. Danach werden evolutionäre Algorithmen erläutert. Diese nutzen Verfahren, die aus der Natur, speziell der Evolution, entlehnt wurden. Der Teil über die modellbezogenen adaptiven Verfahren soll ein Methode erläutern, bei der der Algorithmus in der Lage ist. ein Modell und nicht nur bloße Daten zu lernen. Der Abschnitt über den SAMW-Algorithmus veranschaulicht gleich zwei Gedanken auf einmal, den der simulierten Abkühlung und den der multiplikativen Gewichtung. Bei den drei letzten Abschnitten steht vor allem die Arbeit von Chang et al. (2006) im Vordergrund. Die Algorithmen, die im Detail erläutert werden, stammen aus dieser Arbeit und können dort nachgelesen werden. Hinzu kommen Verweise auf weitere Algorithmen anderer Autoren. Die Algorithmen der Arbeit von Chang et al. (2006) eignen sich vor allem daher sehr gut als Grundstock, da in dieser Arbeit sehr viele unterschiedliche Arten von Algorithmen vorgestellt werden. Eine Betrachtung aller wichtigen Arbeiten auf diesem Gebiet würde den Rahmen dieser Arbeit sprengen, dennoch sollen die wichtigsten Arbeiten, die im Folgenden nicht besprochen werden, der Vollständigkeit halber erwähnt sein. Diese wären: Korida und Borka r (1999). Bhatnagar (2005). Bertsekas (1995-1) und Bertsekas und Tsitsiklis (1996). Wobei Letztere besonders hervorzuheben ist. In Bertsekas und Tsitsiklis (1996) werden Algorithmen vorgestellt, die auf der Methode der Projizierten Belman-Gleichung beruhen. Dabei wird der Zustandsraum durch Projektion in einen weniger dimensionalen Unterraum verkleinert. Allerdings ist diese Arbeit sehr umfangreich und kann deshalb im Rahmen dieser Arbeit nicht adäquat besprochen werden, jedoch soll die Grundidee erwähnt worden sein.
Eine Gruppe von Algorithmen, welche auch nicht im Detail beschrieben wird, sind die modellbasierten Suchmethoden (MBS). Diese zeichnen sich dadurch aus. dass mögliche Lösungen (Kandidaten) durch Nutzung eines Probabilstischen Modells ausgewählt werden. Dieses wird aktualisiert, indem die bisherigen Lösungen benutzt werden, um die Suche auf einen Bereich mit möglichst vielversprechenden Lösungen zu konzentrieren, Modell bezeichnet hierbei einen adaptiven stochastischen Mechanismus, um Kandidaten zu finden und keine approximative Beschreibung der Umwelt wie z.B. beim im Kapitel 3.1 erklärten Bestärkenden Lernen.35 Zu den MBS gehört auch der Ameisenalgorithmus (engl. Ant-Colony-Optimization kurz ACO). Eine Metaheuristik, die auf dem modellhaften Verhalten von realen Ameisen bei der Futtersuche basiert.36 Diese Art von Algorithmen nutzt das aus der Natur übernommene Konzept der Schwarmintelligenz. Schwarmintelligenz bedeutet eine höhere Leistung kann durch die Kooperation von mehreren einfachen Akteuren erbracht werden, die dabei nur einen Teil zur Gesamtlösung beisteuern müssen. Bei anderen Methoden funktioniert die Parameter-Aktualisierung mittels Kreuzentropie (engl. Cross Entropy (CE) 37 oder mittels Gradientenverfahren 38(Stochastic Gradient Ascent).39
3.1 Bestärkendes Lernen und Simulationsverfahren
Maschinelles Lernen meint die künstliche Generierung von Wissen aus Erfahrungen. Ein künstliches System lernt hierbei aus Beispielen (Samples) und ist nach Beendigung einer Lernphase in der Lage zu verallgemeinern. Das heißt es werden nicht einfach die Beispiele auswendig gelernt, sondern das System ist in der Lage. Gesetzmäßigkeiten aus den erlernten Daten zu erkennen. So kann das System auch unbekannte Daten beurteilen. man spricht hierbei vorn Lerntransfer. Stattdessen kann das System aber auch am Lernen unbekannter Daten scheitern. Dies wird dann Überanpassung (engl, overfitting) genannnt. Die praktische Umsetzung ist mittels Algorithmen möglich. Hierbei wird zwischen Algorithmen des Überwachten Lernens, des Unüberwachten Lernens und des Bestärkenden Lernens unterschieden.40 Im Folgenden sind Algorithmen aus der Kategorie des Bestärkenden Lernens (engl. Reinforcement Learning) vor allem von Interesse, da diese ohne Beispiel und Modell ihrer Umwelt verfahren können. Beim Überwachten Lernen wird eine gewünschte Soll-Vorgabe zur Evaluierung des Lernvorgangs benötigt. Dies ist beim Bestärkenden Lernen nicht notwendig. Der Algorithmus lernt dabei durch Belohnung (oder Bestrafung) eine Strategie, wie er in potenziell auftretenden Situationen zu verfahren hat. um den Nutzen des Agenten, gemeint ist damit des Systems, zu welchem die Lernkomponente gehört, zu maximieren.41
Man kann zwischen aktivem und passivem Lernen unterscheiden. Beim passiven Lernen handelt der Agent gemäß einer gegebenen Strategie π und versucht zu lernen wie gut diese Strategie ist. indem er beobachtet, wie sich die Zustände in der Folge verändern. wie z. B. bei der Policy Evaluierung in der Policy Iteration. Beim aktiven Lernen versucht der Agent eine möglichst optimale Strategie zu finden, indem er verschiedene Aktionen ausprobiert. Des Weiteren ist zwischen modellbasiertem und modellfreiem Lernen zu unterscheiden. Beim modellbasierten Lernen soll ein approximiertes Modell aus Erfahrungen erlernt werden. Danach wird für die entsprechenden Werte gerechnet, unter der Annahme, dass das erlernte Modell korrekt ist. Beim modellfreiem Lernen wird hingegen ohne Modell gelernt, allein aus den Erfahrungswerten heraus. Außerdem lässt sich unterscheiden, ob das Lernen on-policy oder off-policy stattfindet. Findet das Lernen on-policy statt, lernt der Agent den Wert einer Strategie aus realen Aktionen. Im Gegensatz dazu bedeutet off-policy. dass der Agent aus hypothetischen Aktionen unabhängig von realen Aktionen lernt. Man spricht dabei auch von Online Lernen (während der Interaktion und mit der Umgebung) und Offline Lernen (vorher und ohne Umgebung).42
3.1.1 Temporal-Difference-Learning
Die Fern pora I-Di If'enence-Learning-Mel hode wird für die Schätzung von Wertfunktionen benutzt. Ohne Schätzung müsste der Agent bis zum letzten berechneten Gewinn abwarten bis er die Zustands-Aktions-Paare aktualisieren kann. Beim Temporal Difference Learning (kurz TD-Learning) handelt es sich um eine auf Vorhersagen basierte Methode des maschinellen Lernens. Diese kombiniert Ideen der Monte-Carlo-Methode und der Dynamischen Programmierung. Sie ähnelt der Monte-Carlo-Methode einerseits. weil sie lernt. Stichproben der Umwelt gemäß einer Strategie zu sammeln und der Dynamischen Programmierung andererseits, da sie ihre gegenwärtigen Schätzungen basierend auf früher erlernten Schätzungen approximiert. Als Voraussageniet hode berücksichtigt TD-Learning. dass aufeinanderfolgende Vorhersagen oft in irgendeiner Weise korreliert sind. Die Idee ist es nun. die Vorhersagen so anzupassen, dass sie mit besseren zukünftigen Vorhersagen übereinstimmen. Es handelt sich um eine Form des Bootstrapping.43
Nun sei kurz erläutert wie das TD-Learning verfährt. Es sei rt die Verstärkung zum Zeitpunkt t, in anderen Worten, der tatsächlich bisher erzielte Gewinn. Des Weiteren sei Vt die korrekte Vorhersage, die gleich der Summe aller diskontierten zukünftigen Verstärkungen ist:
Abbildung in dieser Leseprobe nicht enthalten
Zusätzlich lässt sich noch ein Vergessensparameter λ einführen mit 0 ^ Λ ^ 1. Dann wird vom TD-Lambda-Algorithmus gesprochen. Bei λ = 0 werden alte Vorhersagen sehr schnell vergessen und nur die aktuelle Schätzung berücksichtigt, und bei λ = 1 werden auch weit zurückliegende Schätzungen gleich gewichtet. Das praktische am TD- Learning ist, dass es kein Modell benötigt und dabei gute Approximationen bei der Value Iteration oder beim Evaluationsschritt in der Policy Iteration ermöglicht.44
3.1.2 Q-Learning und SARSA-Methode
Die Q-Learning-Methode funktioniert modellfrei durch Lernen einer Q-Funktion. Hierzu sei die bereits erwähnte Q-Funktion noch einmal veranschaulicht. Die Q-Funktion ist die Aktions-Wert-Funktion. Diese weist der Wahl einer bestimmten Aktion einen Wert zu. Solche Werte nennt man dann Q-Werte. Das Ausführen einer Aktion in einem spezifischen Zustand gibt dem Agenten einen Gewinn. Das Ziel des Agenten ist es diesen Gewinn zu maximieren. Dies macht er durch Erlernen, welche Aktion in welchem Zustand optimal ist. Als optimale Aktion gilt dabei in jedem Zustand die Aktion, welche den langfristig optimalen Gewinn bringt. Dieser ist die mit einem Diskontfaktor 0 ^ γ A 1 gewichtete Summe der Erwartungswerte der Gewinne. Der Algorithmus hat hierfür eine Funktion, die die Quantität der Zustands-Aktions-Kombinationen berechnet: Q : S x A ^ R. Vor Beginn des Lernens wählt Q einen zufälligen Wert, welcher von außen zufällig oder möglicherweise mit irgendeiner Heuristik bestimmt wird. Jedes Mal, wenn der Agent eine Aktion auswählt und betrachtet wie ein Gewinn in einem neuen Zustand erzielt wird, dieser Umstand dabei möglicherweise mit dem vorherigen Zustand und der ausgeführten Aktion in Zusammenhang steht, wird Q aktualisiert. Der Grundgedanke der Methode ist eine Value Iteration mit Aktualisierung, Sie nimmt alte Werte an und macht Korrekturen basierend auf neuen Informationen:
Abbildung in dieser Leseprobe nicht enthalten
Bei Q-Learning handelt es sich um eine Variante des I'D-Learnings, die die Evaluierung von Aktionen erlaubt. Hierdurch ist eine modelfreie Strategieverbesserung möglich,45 Der Name der State-Action-Reward-State-Action-Methode (SARSA) verdeutlicht, dass die Funktion zum Updaten der Q-Werte hierbei abhängig ist vorn: gegenwärtigen Zustand, der gewählten Aktion, dem Gewinn durch diese Aktion, dem neuen Zustand und der nächsten Aktion, also dem Tupel (st, at, rt, st+1, at+1). Der Agent interagiert mit der Umwelt und aktualisiert seine Strategie basierend auf der Strategie die er ausgeführt hat. Es handelt sich also um einen On-policy-learning-Algorithmus, Der Q-Wert für eine Aktion in einem Zustand Q(st, at) wird durch die Lermate α angeglichen:
Abbildung in dieser Leseprobe nicht enthalten46
Während es sich bei Q-Learning urn einen Off-policy-Algorithrnus handelt, verfährt SARSA on-policy. Der maximale Gewinn für den nächsten Zustand wird bei SARSA anders als beim Q-Learning nicht zur Aktualisierung der Q-Werte verwendet, Siai idessen wird eine neue Aktion und ein damit verbundener neuer Gewinn gewählt, durch Bestimmung derselben Strategie, welche auch die ursprüngliche Aktion bestimmt hat,47
3.1.3 Rollout-Verfahren und Hindsight-Optimierung
An dieser Stelle sei nur kurz die Idee eines Rollouts erläutert, da das Verfahren bei der Implementierung in Kapitel 4,2 erneut aufgegriffen wird. Diese besteht darin, eine heuristische Strategie durch Simulation zu verbessern. Die heuristische Strategie am Beginn bezeichnet man als Basis-Strategie (engl, base policy). Deren Performance wird in irgendeiner Form evaluiert, z, B, durch Simulation, Durch One-Step-Lookahead wird basierend darauf eine verbesserte Strategie gefunden und als Schranke verwendet, 48 One-Step-Lookahead (dt, einstufige Vorausschau) bezeichnet in diesem Fall die Betrachtung einer Nachbarstrategie, anhand derer die Basis-Strategie evaluiert wird.49 Rollout meint im Deutschen ein Ausrollen, bedeutet eine verfügbare Strategie über einen erwählten Zeithorizont T < œzu simulieren. Hierbei wird die vielversprechendste Methode in einem Online-Verfahren genutzt. Die gewählte Heuristik bildet also die Basis-Strategie die das Rollout-Verfahren in seiner wiederholten Anwendung verbessern soll. Ein Rollout mit nur einer einzigen Ausgangsstrategie ist nur gut. wenn auch diese Strategie selbst gut ist. Darum ist es möglich, wenn mehrere vielversprechende Heuristiken verfügbar sind, diese parallel zu benutzen und so zu einer Superheuristik zu kombinieren. Man spricht dann von einem parallelen Rollout. Ein Beispiel hierfür ist der noch zu zeigende PIRS. ein spezieller Politik-Verbesserungsschritt beim evolutionären Policy-Random-Search in Kapitel 3.3.2 oder auch der in Kapitel 4.2 vorgestellte Algorithmus zur Strategiensuche für Intensivstationen.50
Bei der Hindsight-Optimierung (HOP) handelt es sich um eine Online-Verfahren zur Aktionsauswahl. Hierbei wird eine Approximation einer Wertfunktion ausgehend für einen bestimmten Zustand gemacht. Dies geschieht durch das Samplen einer Menge nicht-stationärer deterministischer Probleme ausgehend von dem besagten Zustand. Anschließend werden diese Probleme rückblickend (engl, in hindsight) gelöst und die Werte kombiniert. Wenn die resultierenden deterministischen Probleme sehr viel einfacher zu lösen sind als das ursprüngliche Problem, dann ist eine große Ersparnis an Rechenzeit möglich. 51
3.2 Adaptive Algorithmen
Adaptive Algorithmen stehen vor einem Trade-off zwischen Exploration und Exploi- taion. Um diesen zu erläutern wird zunächst auf das Problem des n-armigen Banditen eingegangen. Anschließend werden einige grundlegende Methoden der adaptiven Auswahl vorgestellt, und zum Schluss wird als Musterbeispiel für die adaptiven Sampling-Algorithmen der Upper-Condidence-Bound-Sampling-Algorithmus ausführlich vorgestellt. Ziel von adaptiven Sampling-Algorithmen ist eine Schätzung der optimalen Wertfunktion, unter der Bedingung einer endlichen Anzahl an Simulationen. Adaptives Sampling bedeutet, dass die Auswahl der Aktionen, die im Sample rnitein- bezogen werden, nicht zufällig verläuft, sondern von über die Zeit hinweg beobachteten Werten, bzw, mit ihnen verbundenen Wertfunktionen, abhängt. Dadurch wird ein Konvergieren der Wertfunktion schneller erreicht, als bei einer konventionellen Zufallsauswahl der Samples. Algorithmen, die nach dieser Methode verfahren, eigenen sich besonders für MDPs mit großen Zustandsräumen und relativ kleinen Aki ionsräumen.52
3.2.1 Problem des n-armigen Banditen
Zur Veranschaulichung adaptiver Algorithmen eignet sich eine Betrachtung des Problems des n-armigen Banditen. Deswegen wird im Folgenden kurz auf dieses Problem eingegangen. Beim n-armigen Banditen handelt es sich um eine Verallgemeinerung des Glücksspielautomaten Einarmiger Bandit. Hierbei kann jeder Agent in jedem Schritt eine Aktion a aus n möglichen Aktionen wählen, also an einem Automaten spielen. Nach jeder Aktion erhält er einen Gewinn. Dieser ist abhängig von einer festen Wahrscheinlichkeitsverteilung, welche wiederum von der gewählten Aktion abhängt. Dies bedeutet also, dass jede Aktion einen erwarteten Gewinn hat, welcher sich gemäß einer Wahrscheinlichkeitsverteilung ergibt. Ziel des Spiels ist es, den gesamten Gewinn über einen Zeithorizont T hinweg zu maximieren. Kennt der Agent den tatsächlichen erwarteten Gewinn, wählt er immer die Aktion mit dem höchsten erwarteten Gewinn aus. Es wird jedoch angenommen, dass lediglich die Schätzungen dieser Werte bekannt sind. Es gibt nun mindestens eine Aktion a, deren geschätzter erwarteter Gewinn maximal ist. Hierbei handelt es sich um die Greedy-Aktiori53 oder Exploitation. Demgegenüber steht die Exploration, also das Wählen von Aktionen, die keine Greedy-Aktionen sind. Hierbei ist der Anteil der Explorations-Aktionen abhängig von der Genauigkeit der geschätzten erwarteten Gewinne, der Anzahl verbleibender Aktionen und der Sicherheit über diese Werte. Um den Trade-off zwischen Exploration und Exploitation formal zu beschreiben, hilft die Analyse des Regrets.54 Ziel des Suchprozesses ist es schließlich, die Gewinnverteilung an verschiedenen Automaten zu erkunden (Exploration) und gleichzeitig den Automaten zu betätigen, der bisher die höchsten empirischen Gewinne abgeworfen hat (Exploitation). Der Regret gibt hierbei den erwarteten Verlust an, der entsteht, weil nicht immer der optimale Automat gespielt wird. Sozusagen eine Art Opportunitätskosten gemessen an der optimalen Wahl:
Abbildung in dieser Leseprobe nicht enthalten
3.2.2 Greedy- und c-Greedy-Verfahren
Nun sollen einige einfache Methoden zur Schätzung der Wert-Funktion diskutiert werden. Angenommen man befindet sich im i-ten Spiel. Eine Aktion a sei ka-rnal in den vorherigen Spielen gewählt worden, wobei der Agent die Gewinne [Abbildung in dieser Leseprobe nicht enthalten] erhalten hat, dann kann der Erwartungswert der zukünftigen Gewinne E(Q(a)) durch den Mittelwert angenähert werden. Ausgehend vom Zeitpunkt t ergibt sich hierfür:
Abbildung in dieser Leseprobe nicht enthalten
Für ka wird [Abbildung in dieser Leseprobe nicht enthalten] auf einen Defaultwert gesetzt: [Abbildung in dieser Leseprobe nicht enthalten] Wächst nun [Abbildung in dieser Leseprobe nicht enthalten]. nähert sich der approximierte dem tatsächlichen Erwartungswert der Aktion an:
Abbildung in dieser Leseprobe nicht enthalten
Das Greedy-Verfahren wählt zur Zeit t die Greedy-Aktion a* mit deren Q-Funktion:
Abbildung in dieser Leseprobe nicht enthalten
Das Verfahren wählt also immer die beste bekannte Aktion aus und betreibt damit nur Exploitation,
Das e-Greedy-Verfahren wiederum wählt nur mit der Wahrscheinlichkeit (1 — e) eine Greedy-Aktion und mit der Gegenwahrscheinlichkeit e eine zufällige Aktion aus. Bei diesem Verfahren ist für t sichergestellt, dass ka und somit auch EQt(a) ^
EQ(a) konvergieren. Die Näherung der Wertfunktion E(Qt(a)) basiert auf den mittleren Gewinnen, welche der Agent in der Vergangenheit ausgezahlt bekommen hat. Eine Methode wäre nun. für jede Aktion alle Gewinne über die Zeit hinweg zu sammeln und jedes Mal erneut den Mittelwert zu berechnen:
Abbildung in dieser Leseprobe nicht enthalten
Dies ist aber Zeit und rechenaufwendig, eine Weiterentwicklung bietet die schrittweise Anpassung. Es sei nun für eine beliebige Aktion a, E(Qk) der Mittelwert der ersten k erzielten Gewinne. Damit gilt:
Abbildung in dieser Leseprobe nicht enthalten
alterWert Zielwert alterWert
Schrittweite
Für die schrittweise Implementierung sind die Werte Qk (a) sowie die Anzahl der erzielten Gewinne K für jede Aktion a zu speichern. Hierbei ist der Aufwand pro Aktualisierung einer Schätzung relativ gering. Bei der Verarbeitung des к-ten Gewinns beträgt die Schrittweite: lk = 1/k. Dies bedeutet für Aktion a ist: lk(a) = 1/ka. Die Schrittweite konvergiert in der Folge gegen 0. Beim e-Greedy-Verfahr en sind Exploration und Exploitation einfach zu balancieren. Der Nachteil jedoch ist. dass die Auswahl gemäß einer Verteilung erfolgt, das heißt auch extrem ungünstige Aktionen können ausgewählt werden.0655
3.2.3 Boltzmann-Exploration und Referenzgewinn
Eine Lösung hierfür bietet das Soft max-Verfahren oder auch Boltzmann-Exploration genannt. Hierbei wird zum Zeitpunkt í die Aktion a nach einer Wahrscheinlichkeit gemäß der Gibbs-Boltzmann-Verteilung
Abbildung in dieser Leseprobe nicht enthalten
ausgeführt mit τ > 0. Die Idee dahinter ist, dass die Wahrscheinlichkeitsverteilung auf den bereits geschätzten Werten E(Q(a)) beruht, wobei in der Regel die Greedy-Aktion die höchste Wahrscheinlichkeit haben soll. Dies lässt sich über den Parameter τ regeln. Wird τ sehr groß, so werden die Aktionen fast nach der Gleichverteilung ausgewählt, geht τ gegen 0 wird das Softmax-Verfahren zum Greedy-Verfahren überführt.56 Beim Referenzgewinn-Vergleich (engl. Reward Reinforcement Comparison) ist das Ziel, Aktionen mit hohen erwarteten Gewinnen in der Zukunft häufiger und solche mit niedrigem Gewinn dementsprechend seltener auszuführen. Damit der Agent die Gewinne bewerten kann, muss ein Referenzgewinn bestimmt werden, anhand dessen er sich orientieren kann. Dies kann beispielsweise der arithmetische Mittelwert aller erzielten Gewinne ŕ sein. Der erzielte Gewinn rt wird dann als hoch empfunden, wenn er höher als der Mittelwert ist und niedrig wenn er kleiner als dieser ist. Da die Verteilung der Gewinne nicht stationär ist, wird der Mittelwert der Gewinne gewichtet berechnet:
Abbildung in dieser Leseprobe nicht enthalten
Beim Bestärkenden Lernen mit Referenzgewinnen werden zumeist nicht die Werte der Aktionen Qk(a) mit к als Anzahl der Aktionen geschätzt, sondern stattdessen ein Präferenzwert wt(a) für die Akt ion a zum Zeitpunkt í. Zum Zeitpunkt í wird die Aktion at ausgeführt, wobei der Agent den Gewinn rt erhält. Danach wird Wt angepasst gemäß:
Abbildung in dieser Leseprobe nicht enthalten
Die Werte wt(a) können anschließend in eine Softmax-Funktion eingesetzt werden. Es ergibt sich die Auswahlwahrscheinlichkeit
Abbildung in dieser Leseprobe nicht enthalten
für die Aktion a zum Zeitpunkt í.57
[...]
1 Wgl. Martin (1998) S. 1.
2 Mit bester Lösung ist hier, die beste Lösung, die mit relativ geringem Rechenaufwand gefunden werden kann, nicht unbedingt die ideale Lösung.
3 Agi. Chang et al. (2006) Preface III.
4 Vgl. Rust (1996) S. 619.
5 Falls sich die Frage stellt, sei kurz erwähnt, was die starke Markov-Eigenschaft vorschreibt. Um dieser Eigenschaft zu genügen, müssen zwei Zustände, die eine zufällige Stoppzeit (bei schwacher Markov- Eigenschaft nach einem deterministischen Zeitraum) auseinanderliegen, voneinander unabhängig sein.
6 Siehe Bellman (1957).
7 Siehe Howard (I960).
8 Vgl. Page (1991) S. 25 f.
9 H Siehe hierzu 8.1 Appendix: Abbildungen.
10 lüIn 8.1 Appendix: Abbildungen befindet sieh zu beiden ebenfalls eine graphische Darstellung. nffierbei gilt: S x A := {(s, a) | s E S,a E A}. Das kartesische Produkt S x A ist definiert als die Menge
11 aller geordneten Paare (s, a), wob ei s ein Element aus S und a ein Element aus B ist. Diese ordnet der Operator wieder den Elementen der Menge S (Zielmenge) zu. Es handelt sich hierbei um eine äußere zweistellige Verknüpfung erster Art.
12 ye[0,1] den Diskontfaktor dar.
13 Es wird rückwärts gezählt, wobei 0 der letzte Zeitpunkt t ist.
14 Endliehe MDPs müssen, um lösbar zu sein, nicht zwingend diskontiert sein.
15 Wie auch im DDP muss hierbei der Aktions und Entseheidungsraum endlich sein.
16 Vgl. Puterman (1994) S. 53ü ff.
17 Rekursivität ist eine Eigenschaft von Konstruktionsvorschriften. Diese können dabei auf ein Produkt, das sie erzeugen, von neuem angewandt werden. Hierdurch können theoretisch unendliche Schleifen entstehen.
18 Hierbei hilft es, sich Υπ(s) als Zustands-Wertfunktion, welche den Wert eines Zustands angibt, im Gegensatz zur Aktions-Wertfunktion Qπ(s,a), die den Wert einer Aktion widerspiegelt, vorzustellen.
“’Definition: Kontraktion (M,d) sei ein metrischer Raum. Eine Abbildung φ : M ^ M heißt Kontraktion, wenn es eine Zahl Ae[0,1] gibt, mit der für alle x, yeM gilt: ά(φ(χ),άφ(y) < λ · d(x,y). Man nennt die Abbildung dann kontrahierend auf M.
19 Das bedeutet, bei mehrfacher Anwendung der Abbildungsvorschrift, zieht sich die Menge in sich selbst zusammen.
20 Vgl. Rust (1996) S. 622 und Denardo (1967) S. 165.
21 Dieses Verfahren funktioniert durch Ausprobieren. Siehe Heinemann (2015) S. 37.
22 Bellman (1957) S. 7.
23 Vgl. hierzu Powell (2011) S. 112 ff.
24 Ohne Schwellenwert würden alle möglichen Wertfunktionen berechnet, dieses Verfahren entspräche dann bei endlichem Zeithorizont der Rückwärtsinduktion.
25 Zum Banachschen Fixpunktsatz siehe Kirk und Sims (2001) S. 1 ff.
26 Vgl. Chang et al. (2006) S. 6 ff. Vgl. Puterman (1994) S. 160 ff. Vgl. Powell (2011) S. 68 ff. Für den Psyeudocode zur Value Iteration siehe 8.2 Appendix: Pseudocodes.
27 Vgl. Pashenkova et al. (1996) S. δ.
28 Für Abbildung 2 siehe 8.1 Appendix: Abbildungen.
29 HFür Abbildung 3 siehe 8.1 Appendix: Abbildungen.
30 UVgl. Chang et al.(2006) S. δ ff. Vgl. Puterman (1994) S. 174 ff. Siehe auch: Powell (2011) S. 74 ff. Für den Pseudocode siehe 8.2 Appendix: Pseudocodes
31 Siehe Bertsekas und Tsitsiklis (1996) S. 33 ff.
32 Siehe Bertsekas und Tsitsiklis (1996) S. 264.
33 Siehe Bertsekas und Yu (2010). Für den Psyeudocode zur Policy Iteration siehe 8.2 Appendix: Pseudocodes.
34 Z. B. bezüglich der Größe von Aktions- und Zustandsraum.
35 Vgl. Zlochin et al. (2004) S. 374.
36 Siehe Dorgio et al. (1992).
37 Siehe Rubinstein (1999). Siehe De Beer et al. (2001).
38 Siehe Robbins und Munro (1931). Siehe Bertsekas (1993-2).
39 HVgl. Zlochin et al. (2004) S. 374 f.
40 Vgl. Russell und Norvig (1995) S. 541 ff.
41 Vgl. Russell und Norvig (1995) S. 598 f. Zur Illustration siehe Abbildung 4 in 8.1 Appendix: Abbildungen.
42 Vgl. Russell und Nervig (1995) S. 605 ff.
43 Dies bedeutet, dass die Aktualisierung der Wertfunktion eine existierende Schätzung nimmt und nicht
44 den finalen Gewinn.
45 Vgl. Sutton (1988). Vgl. Dayan (2001). Vgl. Russell und Nervig (1995) S. 604 f.
46 Vgl. Russell und Nervig (1995) S. 612 f. Vgl. Powell (2011) S. 122 f.
47 Zur Vergegenwärtigung der formalen Unterschiede zwischen SARSA und Q-Learning vergleiche die Gleichungen 3.5 und 3.6 miteinander.
48 Vgl. Powell (2011) S. 124.
49 Als untere Schranke bei Maximierungs- und als obere Schranke bei Minimierungsproblemen.
50 HOne-Step-Lookahead meint generell das Betrachten eines Schrittes nach vorn. 5uVgl. Chang et al. (2006) S. 62 und S. 159 f. Vgl. Bertsekas (2013) S. 2989 ff.
51 Siehe Chong et al. (2000).
“Vgl. Chang et al. (2006) S. 17.
52 Auf deutsch kann dies mit gierige Aktion übersetzt werden. Dies ist darauf zurückzuführen, dass Gewinne sofort mitgenommen werden.
53 Auf deutsch bedeutet dies: das Bedauern.
54 Vgl. Kocsis und Szepesvári (2006) S. 282 ff. Vgl. Kuleshov und Preeup (2000) S. 1 ff. Vgl. Chang et al. (2006) S. 19 f. Vgl. Auer et al. (2002) S. 235 f. Vgl. Lai und Robbins (1985) S. 4 ff.
55 Vgl. Kuleshov und Precup (2000) S. 6.
56 Vgl. Vermorel und Mohri (2003) S. 440 f. Vgl. Kuleshov und Precup (2000) S. 6 f.
57 Vgl. Kuleshov und Precup (2000) S. 6 f.
- Arbeit zitieren
- M.Sc. Franz Schmid (Autor:in), 2016, Simulationsbasierte Algorithmen zur Lösung von Markov-Entscheidungsproblemen. Zur Strategiensuche in einer Intensivstation, München, GRIN Verlag, https://www.grin.com/document/334308
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.