Im Rahmen dieser Ausarbeitung soll versucht werden, die künftige Kursentwicklung kleiner Unternehmen aus Deutschland, Österreich und der Schweiz zu prognostizieren. Intention ist die möglicherweise gute Prognostizierbarkeit von Aktien mit geringer Volatilität.
Ziel dieser Ausarbeitung ist demnach die Prognose von Aktienkursen von Unternehmen mit geringer Marktkapitalisierung, sogenannten Small Caps, aus der Region Deutschland, Österreich und der Schweiz mittels künstlicher neuronaler Netze. Geprüft werden soll, ob mittels Deep Learning Prognosen möglich sind, die eine hohe Genauigkeit aufweisen, um diese für Entscheidungen, etwa Investitionsentscheidungen, heranzuziehen. Zur Erfüllung der Zielsetzung werden die historischen Kurse der Small Caps herangezogen und im Rahmen mehrerer Versuchsreihen um verschiedene weitere Parameter ergänzt und variiert, um als Teilzielsetzung auch die Auswirkungen verschiedener Einflussfaktoren auf die Prognosegüte der zu erstellenden Prognosemodelle zu prüfen.
Zunächst werden relevante markttheoretische Grundlagen betrachtet sowie ein Überblick über den Stand wesentlicher Theorien und der Forschung gegeben. Im dritten Kapitel werden sowohl der Aufbau als auch die Funktionsweise von künstlichen Neuronen und deren Zusammenspiel in künstlichen neuronalen Netzen beleuchtet. Betrachtet werden neben verschiedenen Lernformen auch unterschiedliche Arten neuronaler Netze. Eine Abwägung der Netze, im Sinne der Zielsetzung dieser Arbeit, mündet in der Auswahl eines Netztyps. Im vierten Kapitel erfolgt die Definition der Begrifflichkeit Small Cap sowie der Auswahlprozess der zu prognostizierenden Aktien und Indikatoren. Eine Beschreibung der Vorgehensweise begleitet exemplarisch die Prognose eines Nebenwertes. Im sechsten Kapitel werden acht Versuchsreihen mit wechselnden Parametern durchgeführt, um eine möglichst genaue Prognose zu ermöglichen. Diese werden mit den real eingetretenen Kursen und mit anderen Prognosemöglichkeiten verglichen und Vergleichsmaßstäbe zur Bewertung herangezogen.
Inhaltsverzeichnis
Abbildungsverzeichnis
Abkürzungsverzeichnis
Tabellenverzeichnis
1 Einleitung
1.1 Relevanz
1.2 Zielsetzung
1.3 Vorgehensweise
2 Literaturvergleich
2.1 Überblick über Kapitalmarkttheorien
2.2 Aktienanalyse
2.3 Stand der Forschung
3 Künstliche neuronale Netze
3.1 Aufbau und Bestandteile künstlicher neuronaler Netze
3.1.1 Schichtmodell
3.1.2 Künstliche Neuronen
3.2 Machine Learning und Deep Learning
3.2.1 Grundlagen
3.2.2 Training
3.2.3 Lernregeln
3.2.4 Regularisierung und Testphase
3.3 Arten von KNN
3.3.1 Rekurrente neuronale Netze
3.3.2 Long Short-term Memory Netze
4 Datengrundlage
4.1 Small Caps
4.2 Weitere Zeitreihen und Restriktionen
4.3 Entwicklungsumgebung und Programmiersprache
5 Durchführung der Zeitreihenprognose
5.1 Import und Vorverarbeitung
5.2 Datenanalyse
5.3 Datenpartitionierung
5.4 Datenreorganisation
5.5 LSTM Netz
5.6 Prognosebewertung
5.7 Exportfunktion
6 Ergebnisdarstellung und -Würdigung
6.1 Prognoseaufbau
6.2 Versuchsreihe I - Schlusskurse
6.3 Versuchsreihe II - Aktiendaten
6.4 Versuchsreihe III - Kalendarische Daten
6.5 Versuchsreihe IV - gleitende Mittelwerte
6.6 Versuchsreihe V - Indexe
6.7 Versuchsreihe VI - Tagesrenditen
6.8 Versuchsreihe VII - Reorganisation der Zeitreihe
6.9 Versuchsreihe VIII - Vergleich der Indexe
6.10 Zusammenfassung
7 Bewertung und kritische Würdigung
7.1 Prognosen und Datengrundlage
7.2 Hyperparameteroptimierung
7.3 Kennzahlen und Bewertung
8 Fazit
8.1 Zusammenfassung und Würdigung
8.2 Ausblick
Literaturverzeichnis
Anhang
Abbildungsverzeichnis
Abbildung 1: Schematischer Aufbau einfacher vorwärtsgerichteter KNN
Abbildung 2: Schematischer Aufbau eines künstlichen Neurons
Abbildung 3: Beispiele für Aktivierungsfunktionen
Abbildung 4: Schematischer Aufbau einer LSTM Zelle
Abbildung 5: Kursverlauf der init SE Aktie
Abbildung 6: Histogramme zur Aktie der init SE
Abbildung 7: Vereinfachte Darstellung des Prognosefensters
Abbildung 8: Anlernprozess mit unterschiedlicher Netzkonfiguration
Abbildung 9: init SE Trainings-, Validierungs- und Testprognose
Abbildung 10: Übersicht der Versuchsreihen
Abbildung 11: Optimierung vier verschiedener einzelner Hyperparameter
Abbildung 12: Optimierung jeweils zweier Hyperparameter
Abbildung 13: Testintervall der L-KONZEPT Holding AG
Abbildung 14: Prognoseanomalie Versuchsreihe III
Abbildung 15: Tagesrenditen der init SE und deren Prognose
Abbildung 16: Transformation der Zeitreihe am Beispiel der init SE
Abbildung 17: Prognosegüte nach Marktkapitalisierungsintervall
Abbildung 18: Kursausschnitt init SE zu Beginn der Corona-Pandemie
Abbildung 19: Kreuzkorrelation init Kursverlauf und Prognose
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Tabellenverzeichnis
Tabelle 1: Ausschnitt Kursdaten init Aktie
Tabelle 2: X- und Y-Datenreorganisation
Tabelle 3: Zusammenfassung des initialen mehrschichtigen LSTM Netzes
Tabelle 4: Zusammenfassung der acht Versuchsreihen
Tabelle 5: Übersicht der besten Prognosen nach Unternehmen
Tabelle 6: Vergleich der Hyperparameter nach Versuchsreihe
1 Einleitung
1.1 Relevanz
„Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen.“
Das Zitat, das neben dem Physiker Niels Bohr auch Mark Twain, Karl Valentin, Winston Churchill und weiteren Personen zugeschrieben wird, deutet implizit die Herausforderung von Zukunftsprognosen an. Auch der US-Ökonom Burton Malkiel griff das obige Zitat in seinem Werk “A Random Walk Down Wall Street” (1973) auf. Durch Malkiels Werk gewann die Random-Walk-Hypothese an Popularität und ist als Teil der Markteffizienzhypothese eine der bekanntesten Kapitalmarkttheorien. Sie besagt in ihrer stärksten Ausprägung, dass Kursänderungen rein zufällig vom vorherigen Kurs abweichen (vgl. Daxhammer und Facsar 2018, 39). Eine Kursprognose wäre demnach nicht nur schwierig, sondern erfolglos. Dennoch steht die Prognose von Aktienkursen auch heute noch häufig im Mittelpunkt von Forschungen im Themengebiet des Kapitalmarkts und ist bedingt durch deren finanziellen Anreize auch im Interesse von Anlegern.
Durch den technologischen Fortschritt und den sich daraus ergebenden Wegfall hardwareseitiger Beschränkungen besteht seit einigen Jahren auch für Privatpersonen die Möglichkeit zur Nutzung künstlicher neuronaler Netze für verschiedene Anwendungsfelder, häufig unter dem Überbegriff Deep Learning. Darunter subsumieren sich verschiedene Lernarten, die die Netze aus künstlichen Neuronen zur jeweilig gewünschten Funktion befähigen sollen. Die im Lernprozess ablaufenden Prozesse und Berechnungsschritte lassen sich durch die gestiegene Komplexität neuronaler Netze selten nachvollziehen. Im Rahmen der Kapitalmarktforschung und auch abseits des wissenschaftlichen Bereichs erfreut sich Deep Learning zur Kursprognose großer Beliebtheit. So finden sich über die gängigen Suchmaschinen und Foren unzählige Artikel und Anwendungsbeispiele zu selbigen Themen, häufig mit der Intention einer zuverlässigen Prognose zeitlich nah in der Zukunft liegender Kurse, um Gewinnerzielungsabsichten zu bedienen. Auch in dieser Arbeit sollen künstliche neuronale Netze genutzt werden, um zu testen, ob sich Kurse prognostizieren lassen, entgegen klassischer Kapitalmarkttheorien.
Während die Kurse von Large Caps, Unternehmen mit hoher Marktkapitalisierung, hochvolatil sind und damit starken Schwankungen unterliegen, ändern sich Kurse von Small Caps deutlich seltener. Bei sehr geringer Marktkapitalisierung lassen sich häufig auch über mehrere Tage konstante Kurse beobachten. Da hochvolatile Wertpapiere und auch (Krypto-) Währungen und deren Prognose bereits wiederholt im Mittelpunkt der Forschung standen, soll im Rahmen dieser Ausarbeitung versucht werden, die künftige Kursentwicklung kleiner Unternehmen aus Deutschland, Österreich und der Schweiz (DACH) zu prognostizieren. Intention ist die möglicherweise gute Prognostizierbarkeit von Aktien mit geringer Volatilität.
1.2 Zielsetzung
Ziel dieser Ausarbeitung ist demnach die Prognose von Aktienkursen von Unternehmen mit geringer Marktkapitalisierung, sogenanten Small Caps, aus der Region Deutschland, Österreich und der Schweiz mittels künstlicher neuronaler Netze. Geprüft werden soll, ob mittels Deep Learning Prognosen möglich sind, die eine hohe Genauigkeit aufweisen, um diese für Entscheidungen, etwa Investitionsentscheidungen, heranzuziehen. Zur Erfüllung der Zielsetzung werden die historischen Kurse der Small Caps herangezogen und im Rahmen mehrerer Versuchsreihen um verschiedene weitere Parameter ergänzt und variiert, um als Teilzielsetzung auch die Auswirkungen verschiedener Einflussfaktoren auf die Prognosegüte der zu erstellenden Prognosemodelle zu prüfen.
1.3 Vorgehensweise
Zunächst werden relevante markttheoretische Grundlagen betrachtet sowie ein Überblick über den Stand wesentlicher Theorien und der Forschung gegeben. Im dritten Kapitel werden sowohl der Aufbau als auch die Funktionsweise von künstlichen Neuronen und deren Zusammenspiel in künstlichen neuronalen Netzen beleuchtet. Betrachtet werden neben verschiedenen Lernformen auch unterschiedliche Arten neuronaler Netze. Eine Abwägung der Netze, im Sinne der Zielsetzung dieser Arbeit, mündet in der Auswahl eines Netztyps. Im vierten Kapitel erfolgt die Definition der Begrifflichkeit Small Cap sowie der Auswahlprozess der zu prognostizierenden Aktien und Indikatoren. Eine Beschreibung der Vorgehensweise begleitet exemplarisch die Prognose eines Nebenwertes. Im sechsten Kapitel werden acht Versuchsreihen mit wechselnden Parametern durchgeführt, um eine möglichst genaue Prognose zu ermöglichen. Diese werden mit den real eingetretenen Kursen und mit anderen Prognosemöglichkeiten verglichen und Vergleichsmaßstäbe zur Bewertung herangezogen. Eine kritische Betrachtung der Vorgehensweise und Evaluierung der Prognoseergebnisse und Vergleichsmaßstäbe sowie ein Fazit runden die vorliegende Arbeit ab.
2 Literaturvergleich
2.1 Überblick über Kapitalmarkttheorien
In diesem Kapitel werden die wesentlichen Markttheorien sowie deren Entwicklung im zeitlichen Verlauf beleuchtet und in Kontext der Zielsetzung dieser Arbeit gesetzt.
Die Markteffizienzhypothese (MEH) nach Eugene Fama stellt eine der bedeutungsvollsten neoklassischen Kapitalmarkttheorie dar. Grundgedanke der MEH ist es, dass im Fall der Möglichkeit von Prognosen künftiger Kursentwicklungen und Informationen, eine Überrendite erzielbar wäre. Sofern das der Fall ist, würde ein Anpassungsprozess in Richtung des „eigentlichen“ Kursniveaus starten. Durch diese schnelle Kursanpassung an neue Informationen lässt sich aus der Analyse vergangener Kurse nicht auf künftige Kurse schließen (vgl. Daxhammer und Facsar 2018, 39). Fama differenziert drei Ausprägungen: Bereits die schwache Ausprägung der MEH, in der angenommen wird, dass alle historischen Kurse im aktuellen Kurs enthalten sind, wodurch von historischen nicht auf künftige Preise geschlossen werden kann, steht dem Vorgehen dieser Ausarbeitung entgegen. Im Rahmen der mittelstrengen Ausprägung sind zudem alle weiteren öffentlich zugänglichen Informationen eingepreist. Bei der strengen MEH verfügen die Marktteilnehmenden über jegliche relevanten Informationen, die damit bereits im Kurs der Wertpapiere enthalten sind. Die strengste Ausprägung dient nach Fama lediglich als Beurteilung von Abweichungen von der vollkommenen Markteffizienz und weniger als realistisches Abbild des Marktgeschehens. Preise spiegeln im Sinne der MEH demnach vor allem die zugehörigen, vorliegenden Informationen wider (vgl. Fama 1970, 413f).
Die auf der MEH basierende Random-Walk-Theorie (RWT) definiert Kursänderungen als rein zufällige Abweichungen vom vorherigen Kurs, sofern deren zugehörigen Informationen ungehindert zu den Marktteilnehmenden fließen. Im Sinne der RWT spiegelt der morgige Kurs die Informationen des morgigen Tages wider und ist unabhängig vom heutigen Kurs. Da weder Informationen noch Neuigkeiten vorhersehbar seien, wäre auch die Kursbewegung unvorhersehbar und rein zufällig. Formal basiert der Preis eines Wertpapiers zum Zeitpunkt t + 1 auf dem aktuellen Preis zuzüglich dem Zufallsterm st. In der strengsten Form ist normalverteilt, ist unabhängig von vorherigen Kursen und hat einen Erwartungswert von null. Diese anfängliche strenge Auslegung des Random Walk wurde in späteren Untersuchungen abgemildert. Durch das Hinzufügen eines Driftanteils und positiven Erwartungswerts kann im Modell ein Teil der Aktienrenditen durch Kurssteigerungen erklärt werden (vgl. Holzmeister et al. 2022, 358-360).
Ein neuerer kapitalmarkttheoretischer Ansatz bildet das Themengebiet der Behavioural Finance. Dieses umfasst das Forschungsgebiet zur Erklärung von „real beobachtbaren Entscheidungen der Marktte ilnehmer“ (Daxhammer und Facsar 2018, 79). Im Sinne dessen wird angenommen, dass insbesondere private Marktteilnehmende nur beschränkt rational handeln. Grund dafür kann die hohe Anzahl an Entscheidungen sein, die täglich in allen Lebensbereichen getroffen werden muss. Auch die stark angestiegenen Möglichkeiten zum Bezug von Informationen zum Kapitalmarkt über diverse Kanäle, die Fähigkeit diese zu interpretieren, die große Auswahl an Wertpapieren oder schlichtweg die Komplexität des Kapitalmarkts sind nur einige Gründe für irrationales Handeln der Marktteilnehmenden (vgl. Daxhammer und Facsar 2018, 79-81). Durch die These der Informationsdiffusion findet eine nur allmähliche, nicht sofortige, Ausbreitung von neuen Informationen an Marktteilnehmende statt. Unterschieden wird zwischen Akteuren, die neue Informationen recht zeitnah erhalten und Akteuren, die nicht ähnlich schnell Informationen erhalten (vgl. Rapp und Cortés 2017, 18f).
Die RWT wird innerhalb des Behavioral Finance Ansatz abgelehnt. Entgegen der MEH existieren im verhaltenstheoretischen Ansatz Informationsasymmetrien, beispielsweise durch unterschiedliche Zugangsmöglichkeiten, insbesondere Privatanleger betreffend. Weiterhin ist die MEH nicht in der Lage, Marktüberreaktionen oder -anomalien zu erklären bzw. dürften diese gemäß der MEH nicht existieren. In die Verhaltenstheorie fließen psychische Faktoren und Reaktionen ein, etwa panisches Verkaufsverhalten nach Eintritt eines unerwünschten Ereignisses. Das Entscheidungsverhalten der Marktteilnehmenden gründet auch auf Emotionen und Faustregeln (Heuristiken) (vgl. Daxhammer und Facsar 2018, 89-92).
Mondello (2017, 32f) bewertet die Kapitalmärkte entwickelter Länder als mittelstreng informationseffizient, jedoch mit der Ausnahme des Auftretens von Marktpreisanomalien. Beispielsweise den von Sidney B. Wachtel erforschten Januareffekt, gemäß dem die Renditen von Wertpapieren im ersten Kalendermonat und insbesondere an den ersten fünf Handelstagen, höher als im restlichen Jahresverlauf sind (vgl. Wachtel 1942, 186-193). Neuere Untersuchungsergebnisse deuten darauf hin, dass der Januareffekt nicht anhält. Weitere relevante Zeitreihenanomalien sind der Tag-der-Woche-Effekt sowie der Ferieneffekt. Letzterer deutet auf hohe Renditen vor „Handelsferien“ hin, ersterer auf niedrigere und eher negative Renditen an Montagen als an den restlichen vier Handelswochentagen (vgl. Mondello 2017, 33f).
2.2 Aktienanalyse
Die Analyse von Unternehmens- und Kursdaten dient häufig als Entscheidungsgrundlage für Marktverhalten. Im Rahmen der Fundamentanalyse wird versucht, den „inneren Wert“ einer Aktie zu ermitteln. Eine Definition dieses Wertes ist umstritten und scheitert einerseits an der Feststellung von wertrelevanten Faktoren sowie andererseits deren Quantifizierung und Bewertung. Berücksichtigt werden jedoch typischerweise Kennzahlen wie das Kurs-Gewinn-Verhältnis, Bilanzkennzahlen und -quoten (vgl. Holzmeister et al. 2022, 243-253) Die Fundamentalanalyse ist insbesondere bei institutionellen Anlegern weit verbreitet (vgl. Holzmeister et al. 2022, 282).
Das Gegenstück zur Fundamentalanalyse stellt die technische Analyse bzw. Chartanalyse dar. Der Begriff fasst verschiedenste Ansätze zur Prognose des weiteren Kursverlaufs anhand historischer Kursdaten zusammen und basiert auf wiederkehrenden Formationen oder Mustern. In der stärksten Ausprägung erfolgt die Chartanalyse unabhängig vom konkreten Unternehmen, dessen Unternehmensdaten und etwaigen zugehörigen kursbeeinflussenden Faktoren. Als Beispiel für eine Chart-Formations-Regel führen Holzmeister et al. (2022) den Durchbruch einer langfristigen gleitenden Durchschnittslinie, Kopf-SchulterFormationen, W- bzw. M-Formation oder die Orientierung an Widerstands- bzw. Unterstützungslinien auf. Chartformationen gelten nur dann als relevant, sofern zeitgleich eine Abweichung im Handelsvolumen auftritt. Eine erfolgreiche empirische Prüfung charttechnischer Ansätze konnte bisher nicht vollzogen werden, unter anderem, da deren Formationen und Normen unscharf formuliert sind. Problematisch ist auch die Abgrenzung einzelner Chartmuster. Dennoch erfreut sich die Chartanalyse großem Interesse. Trotz der hervorgebrachten Kritik zur technischen Analyse wird im Rahmen dieser Arbeit versucht werden, mit Hilfe von künstlichen neuronalen Netzen möglicherweise verborgene Strukturen, Trends, Muster oder Signale zu nutzen, um auf den künftigen Kurs zu schließen, wenngleich dem künstlichen neuronalen Netz keine Chartmuster vorgegeben werden.
Die dritte bekannte Aktienanalysemethode ist die Sentimentanalyse, bei der die Stimmung der Marktbeteiligten als Entscheidungsbasis dient. Quantifizierbar ist die Marktstimmung etwa durch Befragung von relevanten Marktteilnehmenden, deren Einschätzungen in Indizes zusammengefasst werden (vgl. Gramlich et al. 2020, 1800).
2.3 Stand der Forschung
Die technikgestützte Kursprognose mit Deep Learning ist, bedingt durch hardwareseitige Einschränkungen, erst in jüngerer Vergangenheit Untersuchungsobjekt geworden (vgl. Papp et al. 2019, 193). Vor allem in den letzten Jahren gab es viele Veröffentlichungen unter Verwendung verschiedener Netzwerkarten wie künstlichen und rekurrenten neuronalen Netzen auch mit LSTM Netzen. Häufig werden verschiedene Netzarten verwendet oder kombiniert, um deren Prognoseperformance zu vergleichen. Die Forschung konzentriert sich fast ausschließlich auf Aktien mit hoher Marktkapitalisierung, häufig sogar auf die bekanntesten Unternehmen, wie die der FAANG- Unternehmen (Facebook (Meta), Amazon, Apple, Netflix Google (alphabet)). Durch das gesteigerte öffentliche Interesse an Kryptowährungen trat auch deren Prognose mittels Deep Learning und LSTM Netzen in jüngerer Vergangenheit in Erscheinung, allerdings auch mit Fokus auf bekannte und hochvolatile Währungen wie Bitcoin oder Ethereum (vgl. Aumayr 2019, 1-3). Häufig wird das maschinelle Lernen und Prognostizieren unter Zuhilfenahme von Sentimentanalysen sozialer Medien durchgeführt, etwa durch Betrachtung unternehmensrelevanter Tweets (vgl. Wiesinger 2021, 1f; 56).
Eingabedaten sind in vielen Prognosen grundlegende Tageskursdaten wie Eröffnungs-, Höchst-, Tiefst- und Schlusskurs sowie dem Handelsvolumen, häufig in Kombination mit weiteren Daten und Indikatoren.
Die Prädiktion von Nebenwerten, insbesondere jener aus der DACH-Region, stand bisher nicht im Fokus der Untersuchungen und soll daher in den nachfolgenden Kapiteln durchgeführt und evaluiert werden.
3 Künstliche neuronale Netze
Künstliche neuronale Netze (KNN) werden zur Lösung verschiedenster Aufgaben eingesetzt. Anwendungsbeispiele finden sich vor allem in der Mustererkennung, etwa für Sprachassistenten, Gesichtserkennung und Zeitreihenanalysen. Eine allgemeingültige Definition von KNN existiert nicht, vielmehr handelt es sich bei dem KNN-Begriff um einen Überbegriff für verschiedene Arten künstlicher Netze. Die Grundlage für diese bildet die miteinander Verknüpfung künstlicher Neuronen, die auch als Units, Einheiten oder Knoten bezeichnet werden. Der Aufbau dieser und der KNN sind schematisch an biologische Nervenzellen und Neuronen angelehnt (vgl. Rey und Wender 2018, 15f). Neuronale Netze verfügen über die Fähigkeit des Lernens, die über Anpassung der Gewichte zwischen künstlichen Neuronen umgesetzt wird (vgl. Rey und Wender 2018, 35).
Der Aufbau der Neuronen, deren Zusammenwirken in Netzen sowie die Lernfähigkeit dieser wird in den folgenden Unterkapiteln betrachtet. Abschließend werden verschiedene Netzwerktypen unterschieden und ein für die Zielsetzung dieser Arbeit dienlicher Typ ausgewählt.
3.1 Aufbau und Bestandteile künstlicher neuronaler Netze
3.1.1 Schichtmodell
KNN bestehen aus mehreren Layern (Schichten) künstlicher Neuronen. Diese werden in Input, Output, und Hidden Layer differenziert. Neuronale Netze verfügen über genau eine Input- und eine Outputschicht. Die Anzahl der versteckten Schichten (Hidden Layer) kann variieren. Neuronen des Input Layers erfüllen den Funktionsbereich der Informationsaufnahme, Hidden Layer die Funktion der Verarbeitung und Neuronen im Output Layer dienen der Ausgabe von Informationen (vgl. Rey und Wender 2018, 17-19).
In der einfachsten Form von KNN ist der Informationsfluss unidirektional vorwärtsgerichtet. Der Output eines vorgeschalteten Layers dient gleichzeitig als Input für den nachfolgenden Layer. Netze mit dieser Informationsflussrichtung werden als Feedforward Netze bezeichnet (vgl. Choo et al. 2020, 25). Ein künstliches neuronales Netzwerk wird dann als vollständig verbunden bzw. dicht bezeichnet, wenn alle vorhandenen Neuronen als Input den Output der vorherigen Schicht nutzen (vgl. Choo et al. 2020, 25f; 28-30). Abbildung 1 zeigt die Struktur eines einfachen neuronalen Netzes mit jeweils einer Input- und Outputschicht sowie drei versteckten Schichten. Zwischen den in Schichten angeordneten Neuronen, visualisiert durch Kreise, finden sich Verbindungen, die auch als Links bezeichnet werden. Diese können unterschiedlich stark gewichtet werden. Gewichte können sowohl negativ, positiv als auch gleich Null sein (vgl. Rey und Wender 2018, 17).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Schematischer Aufbau einfacher vorwärtsgerichteter KNN; eigene Darstellung in Anlehnung an Choo et al. (2020, 29).
3.1.2 Künstliche Neuronen
Während Neuronen des Input Layers lediglich Umweltinformationen aufnehmen und ohne Transformation oder Anpassung direkt an die nächste Schicht übergeben, ist die Funktionsweise von Neuronen der Hidden und Output Layern komplexer (vgl. Rey und Wender 2018, 18f). Abbildung 2zeigt den Aufbau eines solchen komplexeren Neurons, innerhalb dessen ein vierschichtiger Prozess abläuft. Als Input für das Neuron i. dienen die Outputs der Neuronen j,k und l.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Schematischer Aufbau eines künstlichen Neurons; eigene Darstellung in Anlehnung an Rey und Wender (2018, 18).
In einem ersten Schritt erfolgt die Berechnung der Inputwerte. Der Netzinput wird anhand der eintreffenden Inputwerte gebildet. Der Input, den ein Neuron i. vom vorgeschalteten Neuron j erhält, berechnet sich durch Multiplikation des Outputs a.j, des vorherigen Neurons sowie der Gewichtung (wiy) der beiden Neuronen.
Inputs = aj * Wij [1]
Der Netzinput (Nettoinput oder Netzeingabe) fasst den gesamten Input eines Neurons, welcher mittels Propagierungsfunktion (oder Inputfunktion) bestimmt wird, zusammen. Im obigen Beispiel besteht dieser aus der Multiplikation von Neuronengewichten und Outputs der Neuronen j, k und l. Zumeist wird der Netzinput mittels Linearkombination berechnet und entspricht somit der Summe der zuvor berechneten Inputs des Neurons i. (vgl. Lämmel und Cleve 2020, 192f). Im dritten Funktionsschritt erfolgt die Zuordnung des berechneten Netzinputs zu einem Aktivitätslevel at mittels Aktivierungsfunktion. Diese wird gewöhnlich einheitlich für alle Neuronen einer Schicht oder gar alle künstlichen Neuronen eines KNN verwendet. Es existieren verschiedene Arten von Aktivierungsfunktionen, die im Folgenden vorgestellt werden.
Die lineare Aktivierungsfunktion beschreibt den Zusammenhang zwischen Aktivitätslevel und Netzinput als linear. Diese lässt sich zudem mit einer Schwelle kombinieren, sodass dann aus
ai = Netzinputi [2]
eine Aktivierungsfunktion mit Schwelle wird:
Abbildung in dieser Leseprobe nicht enthalten
Auch binäre Aktivierungsfunktionen mit Wertebereich zwischen 0 und +1 sind möglich. Diese wirkt wie ein Oder-Gatter.
Abbildung in dieser Leseprobe nicht enthalten
Eine weitere bekannte und besonders praxisrelevante Funktion stellt die sigmoide Aktivierungsfunktion dar. Differenziert wird zwischen den Ausprägungen als logistische Funktion (alternativ: Fermifunktion) oder als Tangens hyperbolicus Funktion. Erstere begrenzt den Wertebereich der Funktion auf zwischen 0 bis +1. Bei sehr negativen Inputwerten beträgt der Funktionswert ungefähr 0. Bei hohem Input nähert sich der Wert asymptotisch +1 an, beispielsweise:
Abbildung in dieser Leseprobe nicht enthalten
Zweitere Funktion, die Tangens hyperbolicus Funktion, verläuft ähnlich wie die Fermifunktion, weist aber die Wertgrenzen -1 und +1 auf.
Abbildung in dieser Leseprobe nicht enthalten
Selten wird die normalverteilte Funktion verwendet (vgl. Rey und Wender 2018, 20-22).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3 visualisiert Beispiele der beschriebenen Aktivierungsfunktionsarten.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3: Beispiele für Aktivierungsfunktionen; eigene Darstellung in Anlehnung an Rey und Wender (2018, 22).
Während die lineare Aktivierungsfunktion sowohl im positiven als auch im negativen Wertebereich unbegrenzt ist, weisen binäre, sigmoide und normalverteilte Aktivierungsfunktionen bedingt durch deren Art Grenzen auf, wodurch der Überlauf der im Netz stattfindenden Aktivitäten und somit Fehler verhindert werden. Gleichzeitig wird hier die Anlehnung an biologische Neuronen deutlich: Diese sind begrenzt und weisen eine Aktivierungsschwelle auf. Für Output Layer wird häufig auf lineare Aktivierungsfunktionen zurückgegriffen und für Hidden Layer werden zumeist sigmoide Funktionen genutzt, unter anderem bedingt durch deren Differenzierbarkeit und der damit verbundenen Nutzbarkeit des Gradientenabstiegsverfahrens, welches in Kapitel 3.2.2 näher beleuchtet wird (vgl. Rey und Wender 2018, 20-26).
Nach Lämmel und Cleve (2020, 194f) wird in praxi ein möglicher Schwellwert 0 häufig bereits in die Berechnung des Netzinputs integriert:
Abbildung in dieser Leseprobe nicht enthalten
Nach Zuordnung des Aktivitätslevels eines Neurons wird im letzten Schritt dessen Output ermittelt. In der einfachsten und zumeist genutzten Form, der Identitätsfunktion, wird nicht zwischen Output (ot) des Neurons i und dem Aktivitätslevel (at) unterschieden. Die Trennung des dritten und vierten Funktionsschritts in Abbildung 2 (Seite 16) ist daher unterbrochen.
Abbildung in dieser Leseprobe nicht enthalten
Eine Sonderform der vorgestellten künstlichen Neuronen stellen On-Neuronen oder Bias-Units dar. Diese verfügen nicht über eine vorgelagerte Schicht, erhalten Folge dessen keine Inputwerte aus vorgeschalteten Neuronen. Stattdessen wird deren Aktivitätslevel und damit deren Output etwa dem Wert +1 gleichgesetzt. Dadurch kann ein On-Neuron auch als Teil eines Input Layers fungieren. Das Gewicht von On-Neuronen zu nachfolgenden Neuronen kann sowohl positiv als auch negativ sein (vgl. Rey und Wender 2018, 27). Abbildung 1 (Seite 16) zeigt in Grau ein On-Neuron, welches der zweiten verborgenen Schicht als Input dient.
3.2 Machine Learning und Deep Learning
3.2.1 Grundlagen
Maschinelles Lernen (Machine Learning) beschreibt nach Hirschle (2021, 37) „die Fähigkeit eines Algorithmus, selbstständig aus Daten zu lernen“, um zugrunde liegende Aufgaben zu lösen. Machine Learning ist damit ein Kernelement künstlicher Intelligenz (vgl. Zhang et al. 2020, 3). Deep Learning (tiefes Lernen) lässt sich als Subtyp des maschinellen Lernens definieren, wird jedoch häufig als dessen Synonym verwendet (Choo et al. 2020, 2). Charakteristisch für Deep Learning ist die größere Anzahl an Hidden Layern gegenüber „traditionellen“ KNN, die häufig nur wenige verborgene Schichten enthalten. Raschka und Mirjalili (2021, 414) grenzen bereits ab mehr als einer verborgenen Schicht KNN von tiefen KNN ab.
Deep Learning dient insbesondere dem Erkennen von Mustern in großen Datenmengen und bietet den Vorteil, mit nur wenigen manuellen Eingriffen durchführbar zu sein. Die ersten Deep Learning Modelle wurden zur Identifikation von Objekten in sehr kleinen Bildausschnitten verwendet (vgl. Goodfellow et al.
2018, 27). Das Lernen mit vielen verborgenen Schichten stellt allerdings höhere Anforderungen an die benötigte Rechenleistung, wodurch Deep Learning erst in den letzten Jahren an Popularität gewonnen hat. Die Abläufe zwischen den vielen Hidden Layern im Deep Learning lassen sich zumeist, bedingt durch die hohe Komplexität und steigenden Abstraktionsgrad, kaum nachvollziehen (vgl. Alpaydin 2019, 327-329).
Es existieren verschiedene Ausprägungen des maschinellen Lernens, die wie folgt kategorisiert werden können.
Im Rahmen des überwachten Lernens (supervised learning) wird dem Netz der zu berechnende Zielwert bzw. das Zielmuster der sogenannte teaching vector, im Training vorgegeben. Anhand dessen werden im KNN die Neuronengewichte in Richtung des Zieloutputs optimiert. Hierdurch soll das KNN befähigt werden auch Prognosen auf unbekannte, künftige Daten ausgeben zu können (vgl. Raschka und Mirjalili 2021, 31).
Unüberwachtes Lernen (unsupervised learning) ist gegenteilig zum überwachten Lernen: Dem KNN wird im Training kein Zielwert vorgegeben. Nach Rey und Wender (2018) „erfolgen [die Gewichtsveränderungen] in Abhängigkeit der Ähnlichkeit der Inputreize“. Auch die Ausprägung als halbüberwachtes Lernen (semi-supervised learning) ist möglich (vgl. Rey und Wender 2018, 28).
Bestärkendes Lernen (reinforcement learning) bezeichnet eine Vorgehensweise, bei der viele Trainingszyklen durch einen Trial-and-Error Prozess durchlaufen werden. Das KNN erfährt nach einer Aktion Belohnung oder Bestrafung, versucht die Belohnung zu maximieren und lernt dadurch eine optimale Herangehensweise zur Lösung der Aufgabenstellung (vgl. Alpaydin 2019, 581). Häufig wird das KNN in der Literatur als Agent bezeichnet, der Aktionen in seiner Umgebung ausführt, durch die ein neuer Zustand entsteht, welcher zu einer Belohnung oder Bestrafung führt (vgl. Raschka und Mirjalili 2021, 34).
Die Trainingsarten für KNN lassen sich des Weiteren nach dem Zeitpunkt der Anpassung der Gewichte unterscheiden: Bei der Vorgehensweise des inkrementellen Trainings (incremental training) erfolgt die Anpassung der Neuronengewichte nach Übergabe jedes einzelnen Inputs. Stapelweises Training (batch training) umfasst die Anpassung der Gewichtsfaktoren nach Übergabe aller Inputfaktoren (vgl. Rey und Wender 2018, 28).
In der vorliegenden Ausarbeitung sollen anhand vergangener Daten auf künftige Daten geschlossen werden. Um das zugrunde liegende KNN dazu befähigen zu können, wird auf überwachtes Lernen zurückgegriffen.
3.2.2 Training
Training bezeichnet den Prozess zur Befähigung des erzeugten künstlichen neuronalen Netzes zur Bewältigung der Problemstellung durch Optimierung der Neuronengewichte zur Annäherung des Netzwerks an eine gewünschte Funktion (vgl. Choo et al. 2020, 30). Vor Trainingsbeginn werden die vorliegenden Daten in Trainings- und Testdaten partitioniert. In der Praxis wird der Datensatz häufig im Verhältnis 80 % zu 20 % geteilt. Alternativ wird in die drei Partitionen Trainings-, Validierungs- und Testdaten differenziert, um die Güte der im Anlernprozess verwendeten ersten beiden Partitionen anhand der Testdaten zu prüfen. Alternativ wird oftmals auf die Methode der Kreuzvalidierung zurückgegriffen, bei der unterschiedliche Datensegmente angelernt und anhand weiterer Zufallssegmente evaluiert werden. Auch findet in der Praxis häufig die zufällige Differenzierung der Datenpunkte in Trainings- und Testdaten statt. Dabei wird die gesamte Datengrundlage zufällig in Trainingsdaten oder Testdaten geteilt. Da die zugrunde liegenden Zeitreihen in einem angenommenen Zusammenhang stehen, sollen diese nicht zufällig partitioniert und deren Zusammenhang damit aufgetrennt werden (vgl. Hirschle 2021, 5153). Zur Befähigung des Netzwerks wird im Folgenden auf die gesamte dreiteilige (zweiteilige) Differenzierung in Trainings-, Test- und Validierungsdaten zurückgegriffen werden.
3.2.3 Lernregeln
Die bekanntesten Lernregeln zum Training künstlicher neuronaler Netze sind die Hebb- und Delta-Regel sowie die Backpropagation.
Die Hebb-Regel gilt als die einfachste Lernregel im Zusammenhang mit KNN. Zwei Neuronen müssen zeitgleich aktiv sein, damit der Gewichtsfaktor im Sinne angepasst werden kann. Die Veränderung des Gewichts (Awiy) ergibt sich aus der Multiplikation der Aktivitätslevel a der betrachteten Knoten i. und j mit dem zuvor festgelegten (positiven) Lernparameter. Die Hebb-Regel ist für überwachtes als auch unüberwachtes Lernen nutzbar, wenngleich deren praktische Bedeutung gering ist (vgl. Rey und Wender 2018, 38f).
Die Delta-Regel (Least-Mean-Square-Regel) umfasst die Berechnung der Differenz (5) aus dem gewünschten Aktivitätslevel und dem beobachteten Level, multipliziert mit dem zuvor festgelegten Lernparameter (g) und dem Aktivitätslevel des vorherigen ausgebenden, Knotens (a.j).
Abbildung in dieser Leseprobe nicht enthalten
Nur bei KNN ohne Hidden Layer kann die Delta-Regel verwendet werden, da der teaching vector ausschließlich für den Output Layer bekannt ist. Dieses Problem lässt sich durch Rückgriff auf Backpropagation und das Gradientenabstiegsverfahren lösen, wenngleich die Delta-Regel bereits eine Sonderform des Gradientenabstiegsverfahrens für Netze ohne Hidden Layer darstellt (vgl. Rey und Wender 2018, 39-41).
Praxisnaher ist die Verwendung der Backpropagation (of Error). Dieses Verfahren lässt sich in drei Phasen teilen: Den Forward Pass, die Fehlerbestimmung und den Backward Pass gliedern. In der ersten Phase werden die Daten der Trainingsmenge vorwärtsgerichtet durch das KNN propagiert, um dessen Output zu berechnen und diesen im Rahmen der Fehlerbestimmung zu bewerten. D'Onofrio und Meier (2021, 36) führen als praxisnahe Fehlerfunktion (F) die mittlere quadrierte Abweichung zwischen tatsächlichem (zt) und berechnetem Output (yf) auf:
Abbildung in dieser Leseprobe nicht enthalten
Für den Begriff der Fehlerfunktion findet häufig auf die Terminologie der Lossfunction oder Verlustfunktion Verwendung. In der Praxis wird als alternative Fehlerfunktion auch auf die Kreuzentropie (Cross Entropy) zurückgegriffen.
Im zweidimensionalen (stark vereinfachten) Raum mit lediglich einem zu berechnenden Gewicht entspräche diese Funktion einer zweidimensionalen Fehlerkurve, deren globales Minimum sehr einfach berechnet werden kann. Aufgrund der hohen Komplexität durch die große Anzahl an Neuronengewichten kann in der Praxis das absolute Minimum der Fehlerfunktion nicht berechnet werden. Die Backpropagation nutzt daher das Gradientenabstiegsverfahren und kann gleichzeitig als dessen Subtyp eingeordnet werden. Voraussetzung für die Anwendung ist die Bildung einer ableitbaren Gesamtfehlerfunktion oder Verlustfunktion F, die der Summe aller quadrierten Differenzen aus gewünscht und beobachteten Aktivitätsleveln entspricht. Das Gradientenabstiegsverfahren sieht zunächst eine initiale zufällige Anpassung aller Gewichte vor. Hierzu wird der Gradient ermittelt. Da die Gewichte zufällig adjustiert wurden, ist der Fehlerwert zunächst, zumindest mit hoher Wahrscheinlichkeit, sehr hoch. Im Anschluss wird der Gradient um eine zuvor festgelegte Lernrate „abgestiegen“. Die Neuronengewichte werden erneut angepasst, bis ein lokales oder möglicherweise globales Minimum der Fehlerfunktion F erreicht wurde oder die zuvor festzulegende Anzahl an Abstiegswiederholungen erreicht wurde. Jeder neue Berechnungsschritt wird als Epoche bezeichnet (vgl. Raschka und Mirjalili 2021, 416f). Bei diesem beschriebenen Schritt handelt es sich um die Charakteristika der Backpropagation, bei der die Ausbreitungsrichtung der Fehlerterme umgekehrt, zurück propagiert, wurde, um von Schicht zu Schicht, beginnend bei allen Neuronen des Output Layers, die Neuronengewichte zu berechnen, bis der Input Layer erreicht wird (vgl. Rey und Wender 2018, 52-56). Während lineare, sigmoide und normalverteilte Aktivierungsfunktionen an jeder Funktionsstelle stetig differenzierbar sind, bleibt bei binären Aktivierungsfunktionen die Nutzung des Gradientenabstiegsverfahrens verwehrt (vgl. Rey und Wender 2018, 25).
3.2.4 Regularisierung und Testphase
Regularisierung bezeichnet das Aufgabenfeld zur Verbesserung der Generalisierungsfähigkeit eines KNN. Eines der relevantesten Probleme, welches beim Trainieren von neuronalen Netzen auftreten kann, ist Overfitting (Überanpassung) (vgl. Görz et al. 2021, 456f). Dabei lernt das Netzwerk nicht wie gewünscht allgemeine Eigenschaften der in praxi oftmals begrenzten Trainingsdaten, sondern passt sich zu stark auf die spezifischen Eigenschaften der Trainingsgrundlage an und kann die zugrunde liegende Aufgaben zwar für Trainingsdaten, nicht aber für Test- oder Produktivdaten gut lösen (vgl. Rey und Wender 2018, 100f). Eine wirkungsvolle Methode ist der Einsatz von großen, diversen Trainingsdatenmengen in Verbindung mit Dropouts. Dabei wird eine vor dem Training festgelegte Menge an rein zufällig ausgewählten Outputs missachtet. Durch die zufällige Auswahl dieser unterscheiden sich die betroffenen Outputs von Trainingsschritt zu Trainingsschritt. Der Wert der fallen gelassenen Outputs wird im Rahmen der Vorwärtspropagation gleich null gesetzt (vgl. Weidman 2020, 122). Choo et al. (2020, 36f) empfehlen einen Dropout-Wert zwischen 20 % und 50 % in jedem Schritt.
In der nächsten Phase, der Testphase, erfolgt die Betrachtung der Trainingsergebnisse. Konkret wird durch die Verwendung der separierten Testdaten evaluiert, ob das KNN wie gewünscht gelernt hat. Gewichte werden in dieser Phase nicht angepasst. Sind die Ergebnisse der Trainings- und Testphasen zufriedenstellend, so wird das KNN zur Lösung eines Entscheidungs- oder Anwendungsproblems produktiv verwendet, andernfalls erfolgt die Anpassung der Vorgehensweise oder Hyperparameter, wie beispielsweise der Lernrate oder des Dropouts, um das KNN im Anschluss erneut zu trainieren und zu testen (vgl. Rey und Wender 2018, 28f).
3.3 Arten von KNN
Wie dargelegt dient der KNN-Begriff als Sammlung verschiedener Ausprägungen künstlicher neuronaler Netze. Gängige Beispiele sind etwa rekurrente neuronale Netze sowie deren Unterform der long Short-term Memory Netze. Daneben existiert eine Vielzahl weiterer Netzarten, beispielsweise Convolutional Neural Networks, die aufgrund des begrenzten Umfangs dieser Arbeit nicht näher berücksichtigt werden können.
3.3.1 Rekurrente neuronale Netze
Rekurrente neuronale Netze (RNN) unterscheiden sich von den zunächst beschriebenen Feedforward Netzen durch vielseitigere Verbindungen, etwa durch Verbindungen von Neuronen zu Neuronen derselben Schicht oder Rückkopplungen (vgl. Choo et al. 2020, 44f). Durch die zusätzlichen Verschaltungen verfügen RNN über ein Kurzzeitgedächtnis, realisiert durch den hidden state (versteckten Vektor) ht. Die Aktivierung eines Neurons hängt demnach neben den Gewichten auch von der Aktivierung des vorherigen hidden state ht_1 ab (vgl. Görz et al. 2021,524-527). Auch RNN lassen sich mittels der vorgestellten Backpropagation durch zeitliche Entfaltung des Netzes trainieren (vgl. Alpaydin 2019, 362).
Wie der KNN-Begriff dient auch der RNN-Begriff lediglich als Sammlung verschiedener untergeordneter Netzwerkarten, wie etwa Attraktorennetzen, Jordan Netzen oder Simple Recurrent Networks. Einsatzmöglichkeiten für RNN finden sich in der Prognose künftiger Ereignisse, wie dem Wetter oder der Imitation menschlichen Verhaltens im Sinne von Sprachassistenten (vgl. Rey und Wender 2018, 74). RNN weisen jedoch zwei Probleme bei der Arbeit mit Zeitreihen auf, die sich als schwindenden (vanishing) oder explodierenden (exploding) Gradienten zusammenfassen lassen, wodurch deren Lernfähigkeit umso mehr gehemmt wird, je länger die betrachtete Zeitreihe ist (vgl. Hirschle 2021, 190). Nach Gers et al. (2000) traten die Probleme bereits bei „herkömmlichen“ RNN mit nur fünf bis zehn diskreten Zeitschritten auf (vgl. Gers et al. 2000, 2451). Da für die Prognose künftiger Kurse auf umfangreiche Zeitreihen zurückgegriffen werden soll, sind RNN in ihrer Grundform nicht für die Zielsetzung dieser Arbeit dienlich.
3.3.2 Long Short-term Memory Netze
Den dargelegten Problemen haben sich Sepp Hochreiter und Jürgen Schmidhuber bereits 1997 durch die Entwicklung von Long Short-term Memory (LSTM) Zellen bzw. Netzen, Subtyp der RNN, angenommen (vgl. D'Onofrio und Meier 2021, 35). Eine wesentliche Erweiterung der LSTM Zelle erfolgte durch Felix Gers durch Hinzufügen eines Forget-Gates (vgl. Gers et al. 2000, 2455f). LSTM Zellen sind wesentlich komplexer und verfügen über ein Gedächtnis, dass das Problem von RNN Layern löst und sich damit, neben der Arbeit mit langen Zeitreihen, auch für eine Vielzahl weiterer Praxisprobleme eignet (vgl. Hirschle 2021, 190f). Konkret erhalten LSTM Neuronen nicht wie die bisher vorgestellten Neuronen lediglich den Output der vorherigen Zelle, sondern daneben, wie RNN, den hidden state ht_1 und zusätzlich einen Zellzustand ct_x. Auch über längere Zeit kann das Netz Informationen im Gedächtnisblock, dem Zellzustand Ct, halten, hinzufügen und löschen, kontrolliert durch Gates (Gatter bzw. Tore). Forget Gates (Vergessenstore) sind in der Lage zu erlernen, ob Inhalte von Gedächtniseinheiten teilweise oder gesamt obsolet geworden sind (vgl. Gers et al. 2000, 2455). Input Gates ermöglichen die Aufnahme weiterer Informationen. Die dritte Gate-Art stellen Output Gates dar. Diese dienen als Fokussierungsmechanismus, der reguliert, „welche Informationen aus dem Zellzustand für [...] [den] gegenwärtigen Output relevant sind.“ (Hirschle 2021, 191). Der Aufbau einer LSTM Zelle ist in Abbildung 4 dargestellt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4: Schematischer Aufbau einer LSTM Zelle; Quelle eigene Darstellung angelehnt an Gers et al. (2000, 17) und Görz et al. (2021, 529).
Vereinfacht laufen folgende Prozesse in der LSTM Zel le ab.Zunächst erfolgt die Entscheidung, welche Informationen vergessen werden sollen. Anhand der Zusammenfassung der Eingabe xt sowie des vorherigen hidden state ht_1 wird die Entscheidung zum Verbleib oder Verwerfen von Informationen durch eine sigmoide Funktionsschicht getroffen, die im Wertebereich 0 bis +1 abgebildet wird und im Anschluss demForget Gate übergebenwird. Werte nahe der unteren Grenze implizieren das Verwerfen der Inhalte (vgl. Görz et al. 2021, 528).
Im nächsten Schritt erfolgt die Entscheidung zur Aufnahme oder Nicht-Aufnahme neuer Informationen, zum einen durch den Input Gate Layer it sowie dem Vektor potenziell neuer Zellzustände Ct, abgebildet anhand einer Tangens hyperbolicus Funktion. Beide Faktoren münden im Input Gate, mit analoger Funktion zum Forget Gate. Der neue Zellzustand zum Zeitpunkt t berechnet sich aus der Multiplikation des Input Gate Layers it mit dem potenziell neuen Zellzustands Ct, addiert mit dem Produkt aus dem alten Zellzustand Ct_1sowie dem Ergebnis des Forgot Gates ft. Formal:
Abbildung in dieser Leseprobe nicht enthalten
Der beschriebene Prozess von Ct_1 über die weiteren dargelegten Faktoren bis hin zum neuen Zellzustand Ct stellt das Kernelement und Charakteristik der LSTM Zelle dar (vgl. Görz et al. 2021, 528f).
Letztlich wird der Output berechnet. Ein sigmoider Layer entscheidet, welche Werte aus xt und ht_1 ausgegeben werden sollen. Anhand eines weiteren Tangens hyperbolicus Layers wird der zuvor berechnete Zellstatus miteinbezogen. Anhand der Faktoren wird durch das Output Gate der hidden state ht gebildet und an die nachfolgende Zelle weitergegeben (vgl. Görz et al. 2021, 528f).
[...]
- Citation du texte
- Fabian Weiß (Auteur), 2022, Preisprognose mit Deep Learning für Small Caps, Munich, GRIN Verlag, https://www.grin.com/document/1303518
-
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X.