Die Tragödie und der Untergang der „RMS Titanic“ im Nordatlantik in den frühen Morgenstunden des 15. April 1912 bleibt eines der bewegendsten und faszinierendsten Kapitel der modernen Zeit. Dieses Ereignis hat nicht nur in der maritimen Geschichte, sondern auch in der Populärkultur einen nachhaltigen Eindruck hinterlassen. Unter den vielen Aspekten, die dieses Unglück für Historiker, Soziologen und Wissenschaftler interessant machen, sticht eine besondere These hervor: die Annahme, dass bei der Evakuierung der Titanic "Frauen und Kinder zuerst" gerettet wurden. Im Rahmen dieser Arbeit wurde die These, mithilfe des Prozessmodells CRISP-DM, der Programmiersprache R sowie statistischen Methoden, näher untersucht. Die Zielsetzung dieser Arbeit war es, aus Sicht eines fiktiven Versicherungsunternehmens zu untersuchen, ob das Überleben der Passagiere auf der Titanic von ihrem Geschlecht und Alter beeinflusst wurden und inwieweit diese Erkenntnisse die populäre These von "Frauen und Kinder zuerst" letztendlich stützen oder auch weitere Faktoren Relevanz hatten.
Inhaltsverzeichnis
- 1 Einleitung
- 1.1 Problemstellung und Relevanz dieser Arbeit
- 1.2 Ziel und Aufbau dieser Arbeit
- 2 Theoretische Grundlagen
- 2.1 Datenanalyse und Data-Mining
- 2.2 CRISP-DM Modell
- 2.3 R als Werkzeug für Datenanalyse
- 3 Datenanalyse des Titanic-Datensatzes mit CRISP-DM
- 3.1 Business Understanding
- 3.2 Data Understanding und Data Preparation
- 3.3 Modeling
- 3.3.1 Logistische Regression
- 3.3.2 Entscheidungsbaum
- 3.3.3 Bewertung der Modelle
- 3.4 Evaluation
- 4 Zusammenfassung
- 4.1 Deployment
- 4.2 Management Summary
Zielsetzung und Themenschwerpunkte
Diese Arbeit untersucht die Überlebenswahrscheinlichkeit der Passagiere der Titanic basierend auf einem öffentlich zugänglichen Datensatz. Die Analyse wird unter Verwendung des CRISP-DM-Modells und der Programmiersprache R durchgeführt. Das fiktive Ziel ist die Verbesserung von Versicherungsprodukten eines Versicherungsunternehmens.
- Einfluss von Geschlecht auf die Überlebenswahrscheinlichkeit
- Einfluss von Alter auf die Überlebenswahrscheinlichkeit
- Einfluss der sozialen Schicht (Passagierklasse) auf die Überlebenswahrscheinlichkeit
- Anwendung des CRISP-DM-Prozessmodells
- Verwendung statistischer Methoden (logistische Regression und Entscheidungsbäume) in R
Zusammenfassung der Kapitel
1 Einleitung: Dieses Kapitel führt in die Thematik ein und beschreibt die Problemstellung: die Untersuchung der These, dass bei der Evakuierung der Titanic Frauen und Kinder zuerst gerettet wurden. Es wird die Zielsetzung der Arbeit formuliert, die darin besteht, den Einfluss von Geschlecht und Alter sowie weiterer Faktoren auf die Überlebenswahrscheinlichkeit zu analysieren. Der Aufbau der Arbeit wird skizziert.
2 Theoretische Grundlagen: Dieses Kapitel legt die theoretischen Grundlagen der Arbeit dar. Es werden die Konzepte der Datenanalyse und des Data Mining erläutert, sowie das CRISP-DM-Modell als Rahmenwerk für die Datenanalyse vorgestellt. Die Programmiersprache R als Werkzeug für die Datenanalyse wird kurz beschrieben. Es werden wichtige statistische Methoden angerissen, die später im Projekt verwendet werden.
3 Datenanalyse des Titanic-Datensatzes mit CRISP-DM: Dieses Kapitel bildet den Kern der Arbeit. Es beschreibt die schrittweise Analyse des Titanic-Datensatzes unter Anwendung des CRISP-DM-Modells. Die einzelnen Schritte, vom Business Understanding über die Datenaufbereitung und -modellierung bis hin zur Evaluation der Ergebnisse, werden detailliert dargestellt und mit Codebeispielen in R illustriert. Die Analyse fokussiert sich auf die Untersuchung des Einflusses von Geschlecht, Alter und Passagierklasse auf die Überlebenswahrscheinlichkeit.
Schlüsselwörter
Titanic, Datenanalyse, Data Mining, CRISP-DM, R, Logistische Regression, Entscheidungsbaum, Überlebenswahrscheinlichkeit, Geschlecht, Alter, Passagierklasse, Sozioökonomischer Status, Statistische Modellierung, Datenaufbereitung.
Häufig gestellte Fragen zur Datenanalyse des Titanic-Datensatzes
Was ist der Gegenstand dieser Arbeit?
Diese Arbeit analysiert die Überlebenswahrscheinlichkeit von Passagieren der Titanic anhand eines öffentlich zugänglichen Datensatzes. Ziel ist die Untersuchung des Einflusses verschiedener Faktoren wie Geschlecht, Alter und soziale Schicht (Passagierklasse) auf die Überlebensrate. Die Ergebnisse sollen fiktiv zur Verbesserung von Versicherungsprodukten dienen.
Welche Methodik wird verwendet?
Die Analyse folgt dem CRISP-DM-Modell und nutzt die Programmiersprache R. Es werden statistische Methoden wie logistische Regression und Entscheidungsbäume angewendet.
Welche Faktoren werden untersucht?
Die Arbeit untersucht den Einfluss von Geschlecht, Alter und Passagierklasse auf die Überlebenswahrscheinlichkeit der Titanic-Passagiere.
Welche Software wird eingesetzt?
Die Datenanalyse wird mit der Programmiersprache R durchgeführt.
Welches Modell dient als Rahmen für die Analyse?
Das CRISP-DM-Modell (Cross-Industry Standard Process for Data Mining) bildet das methodische Gerüst der Datenanalyse.
Welche statistischen Methoden werden verwendet?
Logistische Regression und Entscheidungsbäume werden als statistische Methoden zur Modellierung und Vorhersage der Überlebenswahrscheinlichkeit eingesetzt.
Wie ist die Arbeit strukturiert?
Die Arbeit gliedert sich in eine Einleitung, die die Problemstellung und Zielsetzung beschreibt, einen Abschnitt mit theoretischen Grundlagen (Datenanalyse, Data Mining, CRISP-DM, R), die Hauptanalyse des Titanic-Datensatzes mit detaillierter Beschreibung der CRISP-DM-Phasen und eine Zusammenfassung mit Management Summary und Deployment-Überlegungen.
Welche Schlüsselwörter beschreiben die Arbeit?
Schlüsselwörter sind: Titanic, Datenanalyse, Data Mining, CRISP-DM, R, Logistische Regression, Entscheidungsbaum, Überlebenswahrscheinlichkeit, Geschlecht, Alter, Passagierklasse, Sozioökonomischer Status, Statistische Modellierung, Datenaufbereitung.
Wo finde ich den Datensatz?
Der verwendete Titanic-Datensatz ist öffentlich zugänglich (die genaue Quelle wird in der Arbeit vermutlich angegeben, ist aber hier nicht explizit genannt).
Welche fiktive Anwendung der Ergebnisse wird angestrebt?
Die Ergebnisse sollen fiktiv zur Verbesserung von Versicherungsprodukten eines Versicherungsunternehmens beitragen.
- Quote paper
- Joerg Walbaum (Author), 2023, Statistik über die Titanic-Überlebenden, Munich, GRIN Verlag, https://www.grin.com/document/1447013