Unter Verwendung des Programms RStudio wird in der Hausarbeit eine statistische Analyse des Datensatzes "Space Shuttle O-ring Failures" durchgeführt.
Der Datensatz stammt von dem NASA-Space-Shuttle-Programm und behandelt O-Ring-Ausfälle, die zu dem bisher schwersten Unglück in der US-Rumfahrtgeschichte führten. Die NASA-Shuttle-Orbiter-Mission STS-51-L startete am 28. Januar 1986, und schon nach 73 Sekunden Flugzeit explodierte die Trägerrakete und tötete alle sieben Besatzungsmitglieder. Die Raumfahrzeuge zerbrachen über dem Atlantischen Ozean, vor der Küste von Cape Canaveral, Florida. Zur Explosion kam es, da ein O-Ring in seinem rechten festen Raketenverstärker (SRB) im Liftoff versagt hatte. Das nicht robuste Design des O-Ring verursachte einen Bruch in der SRB-Verbindung, die es versiegelte, so dass unter Druck gesetztes Gas von dem Raketenmotor nach außen gelang und auf die benachbarten SRB auftraf. Dies führte zu der Trennung der mechanischen Verfestigung und dem strukturellen Ausfall des externen Tanks. Aerodynamische Kräfte zerbrachen den Orbiter.
Innerhalb der Arbeit wird eine statistische Datenanalyse durchgeführt und verschiedene grafische Auswertungen erstellt. Es sollen Zusammenhänge zwischen den Einflussfaktoren und dem Fehlerauftreten des Unglücks identifiziert werden. Hierzu werden Hypothesen als mögliche Kausalketten erstellt um denkbare Zusammenhänge zu analysieren. Der Leser bekommt einen Einblick in die Datenanalyse mit dem Programm RStudio und erhält einen Überblick über die Methoden: Regressionsanalyse, Korrelationsanalyse, Logistische Regression, Multiple Regression, Explorative Analyse, sowie Methoden zur Inferenzstatistik.
Gliederung
Abkürzungsverzeichnis
1 Einführung in den Datensatz
1.1 Beschreibung des Datensatzes
1.2 Variablendeskription
2 Deduktive Analyse
2.1 Formulierung der Forschungsfrage und Hypothesendefinition
2.2 Deskriptive Statistiken
2.3 Diagramme und Effekte
2.4 Signifikanztest
3 Explorative Analyse
3.1 Interaktionen im Matrixplot
3.2 Zeitliche Darstellungen
3.3 Karte des Ereigniss
4 Diskussion
4.1 Zentrale Ergebnisse
4.2 Interpretation
4.3 Grenzen der Analyse
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einführung in den Datensatz
Unter Verwendung des Programms RStudio wird in der Hausarbeit eine statistische Analyse des Datensatzes „Space Shuttle O-ring Failures“ durchgeführt. Im ersten Kapitel wird der Datensatz und dessen Hintergrund näher beschrieben um sich einen exakteren Überblick über das Vorkommnis zu erlangen.
1.1 Beschreibung des Datensatzes
Der Datensatz stammt von dem NASA-Space-Shuttle-Programm und behandelt O-Ring-Ausfälle die zu diesem Zeitpunkt zum schwersten Unglück in der US-Rumfahrtgeschichte führten. Die NASA-Shuttle-Orbiter-Mission STS-51-L startete am 28. Januar 1986 und schon nach 73 Sekunden Flugzeit explodierte die Trägerrakete und tötete alle sieben Besatzungsmitglieder. Die Raumfahrzeuge zerbrach über dem Atlantischen Ozean, vor der Küste von Cape Canaveral, Florida. Die Explosion begann, nachdem ein O-Ring in seinem rechten festen Raketenverstärker (SRB) im Liftoff versagt hatte. Das nicht robuste Design des O-Ring verursachte einen Bruch in der SRB-Verbindung, die es versiegelte, so dass unter Druck gesetztes Gas von dem Raketenmotor nach außen gelang und auf die benachbarten SRB auftraf. Dies führte zu der Trennung der mechanischen Verfestigung und dem strukturellen Ausfall des externen Tanks. Aerodynamische Kräfte zerbrachen den Orbiter.
Der Datensatz wurde im Jahre 1989 erstellt und besteht aus sieben Spalten und 25 Zeilen, die als csv-Datei eingelesen wird, wobei nicht alle der sieben Variablen näher analysiert werden.
Datensatz einlesen und relevante Pakete in R-Studio laden:
Abbildung in dieser Leseprobe nicht enthalten
Um die Datenanalyse durchführen zu können und grafische Auswertungen zu erhalten sind verschiedene R-Pakete notwendig welche wie folgt geladen werden:
Abbildung in dieser Leseprobe nicht enthalten
Vorrangig müssen alle R-Pakete installiert werden. Beispielsweise ist für das Paket ggplot2 der Befehl install.packages("ggplot2") auszuführen.
1.2 Variablendeskription
Im Folgenden werden alle Variablen des Datensatzes ausführlich erläutert und die Eigenschaften der Merkmale dargestellt.
Hierzu wird erstmals die Struktur der Daten in R dargestellt um dies zu interpretieren.
Abbildung in dieser Leseprobe nicht enthalten
X
Eine fortlaufende Nummer der Starts der verschiedenen Space-Shuttle Flüge.
Skalenniveau: Diskrete Variable, intervallskaliert, willkürlich definierter Nullpunkt.
Kontinuität: Diskret, fortlaufende Zahl ohne Nachkommastelle.
R-Datentyp: Integer.
FlightNumber – Number of Space Shuttle flight.
Die Nummer des Space-Shuttle Fluges.
Skalenniveau: Kategoriale Variable, nominalskaliert.
Kontinuität: Diskret skalierte Variable mit 24 definierten Ausprägungen.
R-Datentyp: Factor.
Temperature - temperature during start (in degrees F).
Temperaturangabe während des Starts (in Grad Fahrenheit)
Skalenniveau: Metrische Variable, intervallskaliert, willkürlich definierter Nullpunkt.
Kontinuität: Stetige Variable
R-Datentyp: Integer
Pressure – Pressure.
Die Variable Pressure zu Deutsch Druck wird in Pound-force per square inch (PSI) dargestellt. 1PSI = 0,0689 Bar
Skalenniveau: Metrische Variable, verhältnisskaliert, absoluter Nullpunkt.
Kontinuität: Stetige Variable
R-Datentyp: Integer
Fail - did any O-ring failures occur? (no, yes).
Die Variable Fail gibt an, ob ein Fehler an den O-Ringen aufgetreten ist oder nicht.
Skalenniveau: Qualitative Variable, nominalskaliert.
Kontinuität: Diskret skalierte Variable mit 2 definierten Ausprägungen
R-Datentyp: Factor
nFailures - how many (of six) 0-rings failed?
nFailures stellt die Anzahl der fehlerhaften O-Ringe, wobei insgesamt sechs O-Ringe verbaut waren.
Skalenniveau: Metrische Variable, intervallskaliert, absoluter Nullpunkt.
Kontinuität: Stetige Variable
R-Datentyp: Integer
Damage - damage index.
Eine Variable über das Schadensausmaß.
Skalenniveau: Metrische Variable, intervallskaliert, verhältnisskaliert, absoluter Nullpunkt.
Kontinuität: Stetige Variable
R-Datentyp: Integer
Der Datensatz wird auf fehlende Angaben hin analysiert.
Abbildung in dieser Leseprobe nicht enthalten
Zeile Nummer Vier, die keine Daten enthält wird im Fortlauf aus dem Datensatz entfernt. Da sich die Variable FlightNumber als diskret skalierte Variable mit maximal 24 definierten Ausprägungen nicht eignet sinnvoll auszuwerten wird diese Variable weiterhin aus dem Datensatz ebenfalls entfernt. Die Variable Fail (Factor) wird in eine neue Variable “Output” als Datentyp Numeric gewandelt und das Ergebnis wird in einer neuen Matrix „SpaceShuttle_noNA“ ausgegeben.
Abbildung in dieser Leseprobe nicht enthalten
2 Deduktive Analyse
In der deduktiven Analyse wird der klassische Forschungsansatz verfolgt, dass durch logische Hypothesen die Theorien zu beweisen oder zu wiederlegen.
2.1 Formulierung der Forschungsfrage und Hypothesendefinition
Identisch der Forschungsarbeit der NASA soll sich die Forschung der Arbeit damit beschäftigen Zusammenhänge zwischen den Einflussfaktoren und dem Fehlerauftreten des Unglücks zu identifizieren. Hierzu werden Hypothesen als mögliche Kausalketten erstellt um denkbare Zusammenhänge zu analysieren. Die Hypothesen werden gemäß der wissenschaftlichen Statistik als unspezifische Nullhypothese formuliert.
H1: Es besteht kein Zusammenhang zwischen der Temperatur und der Fehlerintensität Damage.
H2: Es besteht kein Zusammenhang zwischen dem Druck (Pressure) und der Fehlerintensität Damage.
H3: Es besteht kein Zusammenhang zwischen der Temperatur und dem Ausfallindex Fail bzw. Output.
Zu allen formulierten Null-Hypothesen (H0) lassen sich die Alternativhypothesen (HA) aufstellen und ein möglicher Zusammenhang kann abgeleitet werden.
2.2 Deskriptive Statistiken
Im ersten Schritt der statistischen Analyse wird ein Überblick über die Daten erstellt um diese im Weiteren deskriptiv zu beschrieben.
Abbildung in dieser Leseprobe nicht enthalten
X:
Abbildung in dieser Leseprobe nicht enthalten
Die fortlaufende Nummer der Starts des Space Shuttle verläuft von 1 - 24, wobei Zeile 4 gelöscht wurde. Die Variable kann als Zeitachse verwendet werden.
Temperature:
Abbildung in dieser Leseprobe nicht enthalten
Die Temperatur lag zwischen 53 und 81 Grad Fahrenheit. Im Durchschnitt bei 69,57 Grad Fahrenheit, was annähend dem Median von 70 Grad Fahrenheit entspricht. Da das 1. und 3. Quartil symmetrisch verteilt sind, die Minimal- und Maximalwerte dies ebenfalls sind, kann von einer Normalverteilung ausgegangenen werden. Die Standardabweichung (Sd) beträgt 7,05 Grad Fahrenheit und der Interquartilsabstand (IQR) beträgt 8 Grad Fahrenheit.
In einem Boxplot wird nochmal die Verteilung der Daten verdeutlicht.
Abbildung in dieser Leseprobe nicht enthalten
Pressure:
Abbildung in dieser Leseprobe nicht enthalten
Zwischen 50 und 200 PSI lagen die Werte des Druckes. Der Durchschnitt betrug 145,7 PSI. Der Median, das 75. Perzentil und der Maximalwert sind identisch was für eine starke nicht symmetrische Verteilung spricht. Die Sd beträgt 70,57 PSI und der IQR zählt 150 PSI.
In einem Boxplot wird nochmal die Verteilung der Daten verdeutlicht.
Abbildung in dieser Leseprobe nicht enthalten
Der Druck war zu 30,43% bei 50 PSI, zu 8,69% bei 100 PSI und zu 60,87% bei 200 PSI.
Fail:
Die nominalskaliere Variable Fail gibt in „yes“ oder „no“ an, ob ein Fehler vorlag.
Abbildung in dieser Leseprobe nicht enthalten
Siebenmal trat ein Fehler auf und 16 mal nicht. Was einem Fehleranteil von 30,43% entspricht.
Der Einfluss der Temperatur auf den Ausfallmechanismus wird analysiert.
Abbildung in dieser Leseprobe nicht enthalten
Der Median bei Fehlern betrug 63 Grad Fahrenheit. Gegenübergestellt lag der Median bei nicht fehlerhaften Flügen höher, bei 71 Grad Fahrenheit. Der Boxplot kommt der Interpretation zugute.
Abbildung in dieser Leseprobe nicht enthalten
nFailures:
nFailures repräsentiert eine Datenreihe mit möglichen Werten von 0 bis 6, diese der Anzahl der fehlerhaften O-Ringe im Space Shuttle entspricht.
Abbildung in dieser Leseprobe nicht enthalten
Der Durchschnitt lag bei 0,39 Fehlern. Maximal traten Fehler an zwei O-Ringen des Space Shuttles auf. Die Standardabweichung beträgt 0,66. Bei 69,57% der Fälle traten keine Fehler auf. 5 mal wurde 1 O-Ring beschädigt und 2 mal wurden sogar zwei O-Ringe beschädigt, was das folge Histogramm nochmals darstellt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung in dieser Leseprobe nicht enthalten
Damage:
Abbildung in dieser Leseprobe nicht enthalten
Im Mittel trat eine Fehlerintensität von 1,6 bei einer Standardabweichung von 2,71 auf. Insgesamt sind in der Variablen Damage ein Fehler mehr als bei den andere beiden bisher analysierten Fehlermesseinheiten.
In einem Boxplot, werden die Einzelwerte mit der R-Funktion Jitter und die Verteilung der Daten dargestellt.
Abbildung in dieser Leseprobe nicht enthalten
Es ist deutlich sichtbar das keine Normalverteilung der Daten vorliegt. Zu beachten ist weiterhin das die Fehlerintensität einmal aus statistischer Ausreißer und wiederrum als Jitter-Punkt, somit doppelt, eingezeichnet ist.
[...]
- Citar trabajo
- Stephan Röß (Autor), 2017, Analyse des Datensatzes "Space Shuttle O-Ring Failures" mit RStudio, Múnich, GRIN Verlag, https://www.grin.com/document/373665
-
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X.