Ziel dieser wissenschaftlichen Arbeit ist es, eine quantitative Datenanalyse der Zusammenhänge zwischen dem pro Kopf Alkohol Konsum (Wein) und den damit verbundenen Toten mit Herz und Lebererkrankungen je Land durchzuführen. Im Fokus steht dabei die Untersuchung, in wie fern sich der Alkoholkonsum - in Form von Wein - auf die Todesursache auswirkt. Durch die Anwendung geeigneter Testverfahren wird mittels der Statistiksoftware RStudio eruiert, ob die zuvor erstellten Alternativ- und Nullhpothesen Bestand haben oder verworfen werden müssen.
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
1 Einleitung
2 Zielsetzung
3 Datensatz Auswertung
4 Hypothesenprüfung
4.1 Hypothesenformulierung
4.2 Korrelationsanalyse
4.3 Regressionsanalyse
5 Fazit
6 Literaturverzeichnis
7 Internetverzeichnis
Abbildungsverzeichnis
Abbildung 1: Darstellung Variablen
Abbildung 2: Übersicht Datensatz „Wine“
Abbildung 3: Datensatz mit Variablenausprägungen
Abbildung 4: Alkoholkonsum je Land
Abbildung 5: Boxplot Variable „alcohol“
Abbildung 6: Forschungshypothese 1
Abbildung 7: Forschungshypothese 2
Abbildung 8: Korrelationsanalyse von „alcohol“ und „heart“
Abbildung 9: Korrelationsanalyse von „alcohol“ und „liver“
Abbildung 10: Regressionsanalyse Hypothese 1
Abbildung 11: Regressionsanalyse Hypothese 2
Tabellenverzeichnis
Tabelle 1 : Häufigkeitstabelle der Variable „country“
1 Einleitung
Der in dieser wissenschaftlichen Arbeit thematisierte Datensatz „Wine“ stammt aus dem Datenpaket Wooldridge und beinhaltet insgesamt 111 Datensätze. Jeffrey Wooldridge, ein US-amerikanischer Ökonometriker, erfasste erstmals 2010 in seinem Buch „Introductory Econometrics: A Modern Approach“ dieses Datenpaket.1 Der analysierte Datensatz „Wine“ stammt aus der im Jahr 2015 erschienen 6. Auflage des Buches. Durch das effiziente Hochladen jedes Datensatzes mit nur einem Befehl, erleichtert das Wooldridge Datenpaket die Arbeit mit dem Statistikprogramm RStudio. Des Weiteren wurden die Datensätze auf einen Bruchteil ihrer originalen Größe minimiert und detailliert beschrieben. Zu den Dokumentationen jedes Datensatzes zählen u.a. die original Quelle, Seitenzahl und Erscheinungsdatum.2
2 Zielsetzung
Ziel dieser wissenschaftlichen Arbeit ist es, eine quantitative Datenanalyse der Zusammenhänge zwischen dem pro Kopf Alkohol Konsum (Wein) und den damit verbundenen Toten mit Herz und Lebererkrankungen je Land durchzuführen. Im Fokus steht dabei die Untersuchung, in wie fern sich der Alkoholkonsum - in Form von Wein - auf die Todesursache auswirkt. Durch die Anwendung geeigneter Testverfahren wird mittels der Statistiksoftware RStudio eruiert, ob die zuvor erstellten Alternativ- und Nullhpothesen Bestand haben oder verworfen werden müssen
3 Datensatz Auswertung
Für die Auswertung des Datensatzes wird mit der Software RStudio gearbeitet. Zunächst werden für die Datenanalyse folgende Pakete installiert und geladen:
Abbildung in dieser Leseprobe nicht enthalten
Mit folgendem Befehl wird der Wooldridge Datensatz in RStudio angezeigt. View(wine)
Um eine Übersicht aller Variablen zu erhalten, wird folgender Befehl in die Console eingegeben:
Abbildung 1: Darstellung Variablen
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Als nächstes wird der Datensatz übersichtlich mit folgendem Befehl dargestellt:
Abbildung 2: Übersicht Datensatz „Wine “
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Insgesamt enthält der in der New York Times im Jahr 1994 erschienene Datensatz „Wine“ 21 Observationen (das spiegelt die erzielten Beobachtungen bei der Umfrage wieder). Des Weiteren beinhaltet die Studie 5 Variablen/Merkmale. Da es sich um einen englischsprachigen Artikel handelt, werden die Variablen im Nachfolgenden genauer beschrieben sowie übersetzt. Die Merkmale gliedern sich in ganze Zahlen (integer) wie „deaths“ (Tote pro 100.000) und „heart“ (Tote an Herzkrankheiten pro 100.000), sowie eine kategorial nominalskalierte Variable „country“ (Land) und metrisch stetigskalierte Merkmale wie „alcohol“ (Liter Alcohol in Form von Wein pro Kopf) und „liver“ (Tote an Leberkrankheiten pro 100.000).3
- country:
- alcohol: liters alcohol from wine, per capita
- deaths: deaths per 100,000
- heart: heart disease dths per 100,000
- liver: liver disease dths per 100,0004
Dabei weisen die Autoren des Zeitungsartikels darauf hin, dass es sich bei „death“, „heart“ und „liver“ um abhängige Variablen sowie bei „alcohol“ und „country“ um eine unabhängige Variable handelt.4 5 Diese Information werden bei dem Aufbau und Formulierung der Hypothesen berücksichtigt.
Ein weiterer Überblick des Datensates mit genauerer Variablenausprägungen lässt sich mit folgendem Befehl generieren:
Abbildung 3: Datensatz mit Variablenausprägungen
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Im Folgenden wird die unabhängige Variable „country“ genauer analysiert. Da es sich hierbei um eine kategorial nominalskalierte Variable handelt, bietet es sich hierfür an, eine Häufigkeitstabelle für die Analyse zu verwenden. Die Häufigkeitstabelle zeigt, wie viele Beobachtungen pro Land in absoluten Zahlen (absoluten Häufigkeiten) erzielt wurden.
Tabelle 1 : Häufigkeitstabelle der Variable „country“
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
Da die aggregierten Zahlen der Toten jeweils pro Land dargestellt wurden, erscheint jedes Land nur einmal. Als nächstes wird der Zusammenhang zwischen den unabhängigen Variablen „alcohol“ und „country“ untersucht.
Dazu wird zunächst der Befehl: library(ggplot2) eingegeben und nach erfolgreichem Laden folgendes in die Console eingefügt:
Abbildung in dieser Leseprobe nicht enthalten
Es steht im Befehl „angle=90“, weil die Überschriften von x-Achse rotiert werden, damit die Namen der Ländern sich nicht überschneiden. Als Ergebnis erscheint, dass die Schweiz, Frankreich, Italien, Spanien die höchsten Werte von Alkoholkonsum (Wein) haben.
Abbildung 4: Alkoholkonsum je Land
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung
[...]
1 Vgl. Wooldridge, M., Jeffrey, Introductory Econometrics A Modern Approach, 2015 S. 15ff
2 Vgl. https://cran.r-project.org/web/packages/wooldridge/wooldridge.pdf, Zugriff am 30.07.2019
3 Vgl. Wooldridge, M., Jeffrey, Package „Wooldridge“, 2018, S. 145
4 Vgl.https://cran.r-project.org/web/packages/wooldridge/wooldridge.pdf, Zugriff am 01.08.2019
5 Ebd.
- Quote paper
- M. Frank (Author), 2019, Auswertung des Wooldridge Datensatzes "Wine". Quantitative Datenanalyse. Auswirkung des Alkoholkonsums (Wein) auf die Todesursache, Munich, GRIN Verlag, https://www.grin.com/document/584870
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.