Zusammenfassung wissenschaftlicher Methoden der qualitativen Datenanalyse mit Visualisierungen und Beispielübungen.
Wissenschaftliche Grundlagen:
Was ist eine Theorie?
- Sammlung von Hypothesen
- Liefert vorläufige Antworten
- Lässt sich kaum in ihrem vollen Umfang aufeinmal prüfen
- Theorien sind an kausalen Beziehungen interessiert (Zusammenhänge)
- Gute Theorien ermöglichen Vorhersagen, Erklärungen & Nutzen
Was ist eine Hypothese?
- Eine Hypothese ist eine aus einer Theorie abgeleitete, unsichere Aussage
- Hypothesen sind nie beweisbar (verifizierbar) à Prinzip der Falsifikation: man kann nur beweisen, dass Hypothesen falsch sind
Kriterien, die wissenschaftliche Hypothesen erfüllen müssen:
- Bezug auf reale, untersuchbare Sachverhalte
- Allgemein gültig (über Einzelfall herausgehend)
- Formalstruktur eines Konditionalsatzes (Bedingung: ,,je...desto...‘‘ oder ,,wenndann...‘‘)
- Es müssen Ereignisse denkbar sein die dem Konditionalsatz widersprechen (Falsifizierbarkeit)
Beispiel: ,,Je höher die Wertschätzung durch die Führungskraft, desto höher das Engagement der Mitarbeiter.‘‘
Tautologien:
- haben keine Falsifikatoren, sind immer wahr (Spekulation: ,,es kann so sein, muss aber nicht‘‘)
Beispiel: ,,wenn der Hahn kräht auf dem Mist, ändert sich das Wetter oder es bleibt, wie es ist.‘‘
Kontradiktionen:
- haben keine Konfirmatoren, sondern nur Falsifikatoren, Sie sind immer falsch
Beispiel: ,,Wenn eine Person keinen Wein trinkt, dann trinkt sie Chardonnay.‘‘
Übungsaufgabe Hypothesen:
Abbildung in dieser Leseprobe nicht enthalten
Forschungsprozess allgemein (unabhängig ob qualitativ/quantitativ):
Abbildung in dieser Leseprobe nicht enthalten
Gütekriterien der Forschung:
Ethische Aspekte: können negative Folgen bei befragten auftreten?
Transparenz: Ist das Vorgehen klar dokumentiert & nachprüfbar?
Objektivität: Sind die Ergebnisse unabhängig von der Person?
Interne Validität: Keine anderen Erklärungen für die Ergebnisse? Ist der behauptete Z. …Zusammenhang richtig?
Externe Validität: Sind die Ergebnisse Übertragbar?
Unterschied Qualitative Forschung & Quantitative Forschung:
Abbildung in dieser Leseprobe nicht enthalten
Grundlagen Quantitativer Datenanlyse – Grundbegriffe:
Empirische Forschung:
- Gewinnnung von Erkenntnissen durch Auswertung von Erfahrungen (Daten)
- Entwicklung & Prüfung wissenschaftlicher Hypothesen
Variablen & Daten:
- Untersuchungsobjekte werden bezüglich bestimmter Merkmale beschrieben um festzustellen, ob sich Objekte bezüglich Ihrer Merkmalsausprägung unterscheiden
- Ausprägungen sind idr. Numerisch oder mit Text kodiert
- Merkmalsunterschiede werden in Variablen beschrieben (Bsp.: Geschlecht)
- Die Menge der Merkmalsmessungen sind die quantitativen Daten
- ,,Operationalisierung‘‘ meint das Vorgehen, das gewählt wird, um von Merkmalen zu Daten zu gelangen
Beispiel:
Abbildung in dieser Leseprobe nicht enthalten
Zeile = Untersuchungsobjekt
Spalte = Merkmale, welche in Variablen erfasst sind (Bsp: Geschlecht)
Einzelne Zellen = Ausprägung der Untersuchungsobjekte auf den einzelnen Merkmalen (bsp: Ahmet ist männlich)
Zusammenhangsanalyse:
- Abhängige Variable (AV): Wert hängt von der unabhängigen Variablen ab
- Unabhängige Variable (UV): Wert hängt von keiner anderen Variable ab
- Kovariablen/Störvariablen: Variablen, deren Wert ebenfalls auf die abhängige Variable einwirkt oder den Zusammenhang zwischen abhängiger & unabhängiger Variable beeinflust
Achtung: Das Ignorieren von Kovariablen kann zu falschen Schlüssen führen!
- Beispiel Simpson Paradoxon: Es wurde davon ausgegangen, dass Frauen an der Uni eine -..geringere Zulassungswahrscheinlichkeit haben. Bei genauerem Hinsehen wurde ...herausgefunden, dass Frauen sich bei den Fächern beworben haben, wo sowieso …weniger Leute zugelassen werden.
Messung:
- Einer Eigenschaft eines Objektes wird ein Wert zugewiesen
- Die Beziehung der Werte sollte der Beziehung der Eigenschaften entsprechen (Prinzip der Relation)
- Manifeste Variablen: können direkt gemessen werden (Größe)
- Latente Variablen: Können nicht direkt gemessen werden, müssen erst operationalisiert werden (zB.: Intelligenz)
- Operationalisierung = Messbarmachung (zB. durch Fragebogen mit ankreuzmöglichkeiten)
Gütekriterien der Messung:
Genauigkeit: Exaktheit der Messung
Objektivität: Messung muss unabhängig vom Messenden sein Realibität: Zuverlässigkeit (bei wiederholter Messung muss dasselbe Ergebnis herauskommen)
Validität: Es wird das gemesse, was gemessen werden soll
- Nicht mit Allg. Gütekriterien der Forschung verwechseln!!
Pingo Fragen:
1. Theorien werden aus Hypothesen abgeleitet
Falsch
2. Hypothesen müssen verifiziert werden können
Falsch
3. ,,Frau Müller leidet bei schwülem Wetter unter Migräne‘‘ erfüllt alle Kriterien einer wissenschaftlichen Hypothese
Wahr
4. Welche der folgenden Aussagen zu empirischer Forschung ist korrekt?
- Daten sind der Rohstoff empirischer Forschung
- Daten sind immer quantitativ (Zahlen)
- In Datensätzen stehen die Untersuchungsobjekte in Spalten, die Variablen in Zeilen
- Untersuchungsobjekte sind immer Personen
5. Der Forschungsprozess beginnt mit der Datenerhebung
Falsch
6. Welche der Folgenden Aussagen zu Gütekriterien sind korrekt?
- Ist die Externe Validität verletzt, kommen auch andere Erklärungen für die Ergebnisse in Frage
- Ist die Externe Validität verletzt, können die Ergebnisse nicht auf andere Personen oder Situationen übertragen werden
- Objektivität & Validität sind Gütekriterien sowohl für Forschung als auch für Messungen
- Objektivität & Validität sind Gütekriterien für Messungen
7.Ethik & Transparenz sind Gütekriterien für Forschung
Wahr
8. Manifeste Variablen wie z.B: Körpergröße müssen erst operationalisiert werden
Falsch
9. Welche der folgenden Aussagen zur Zusammenhangsanalyse sind korrekt?
- Ist eine Variable abhängig, wurde ein Zusammenhang gefunden
- Die unabhängige Variable ist diejenige, die von keiner anderen Variablen abhängt
- Wird kein Zusammenhang gefunden, gibt es nur unabhängige Variablen
- Die abhängige Variable hängt von der unabhängigen Variable ab
10. Welche der folgenden Aussagen zu Kovariablen ist korrekt?
- Eine Kovariable wirkt – ebenso wie die unabhängige variable – auf die abhängige Variable ein
- Eine Kovariable ist eine variable, auf die die unabhängige Variable einwirkt
Grundbegriffe des Skalenniveaus:
Kategoriale Skalenniveaus:
Abbildung in dieser Leseprobe nicht enthalten
Numerische/Metrische Skalenniveaus:
- Merkmalsausprägungen können unterschieden und in eine Reihenfolge gebracht werden, die Abstände sind vergleichbar
Abbildung in dieser Leseprobe nicht enthalten
Weitere Unterscheidung in:
Abbildung in dieser Leseprobe nicht enthalten
Übungsfrage:
Welches Skalenniveau hat die Variable Stundenlohn?
a. Kategorial nominal
b. Kategorial ordinal
c. Metrisch stetig
d. Metrisch diskret
- Man kann mit Stundenlohn rechnen, keine Kategorie; Zwischenwerte denkbar
Welches Skalenniveau hat die Variable Telefonvorwahl?
a. Kategorial nominal
b. Kategorial ordinal
c. Metrisch stetig
d. Metrisch diskret
- Keine Zwischenwerte; Rangfolge nicht sinnvoll
Übungsfrage Intervallskala:
Am 15.09 sei es in Köln 20 Grad Celsius, am 15.03 10 Grad Celsius. Stimmt die Aussage: Am 15.09 war es doppelt so warm wie am 15.03?
- Nein, in Fahrenheit umgerechnet würd die Aussage zB. Nicht mehr zutreffen (Verhältnis bleibt nicht bestehen)
Zusammenfassung (Skalenübersicht):
Abbildung in dieser Leseprobe nicht enthalten
Hilfe zur Bestimmung des Skalenniveaus:
Abbildung in dieser Leseprobe nicht enthalten
Datenerhebung:
Stichproben:
- Stichproben sind eine Teilmenge der Population (Grundgesamtheit). Unsere Daten liegen lediglich für die Stichprobe und damit für einen Teil der Population vor. In der Regel ist man daran interessiert, das Ergebnis einer Stichprobe zu generalisieren, ähnlich, wie wenn man zB. vom Geschmack eines Löffels Suppe auf den Geschmack der gesamten Suppe schließt.
Begriffe:
Abbildung in dieser Leseprobe nicht enthalten
Stichprobenverfahren:
Abbildung in dieser Leseprobe nicht enthalten
Beobachtungsstudie vs. Experiment:
Abbildung in dieser Leseprobe nicht enthalten
Übungsfrage:
Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit zusammenhängt und zwar unterschiedlich für Frauen und Männer. Welche Aussage stimmt:
A) es handelt sich um eine Beobachtungsstudie
B) es handelt sich um ein randomisiertes Experiment
Abbildung in dieser Leseprobe nicht enthalten
Quantitativer Forschungsprozess:
1. Forschungsfrage
2. Studiendesign (Operationalisierung/Variablenauswahl/Stichprobenverfahrenauswahl/Versuchsplanung bei Experiment)
3. Datenerhebung
4. Datenanalyse (Datenaufbereitung)
5. Explorative Datenanalyse (Grafiken/Kennzahlen)
6. Inferenz (Testen von Hypothesen mit Inferenzstatistischen Testverfahren)
7. Schlussfolgerung
Grafische Verfahren der Datenanalyse:
Balkendiagramm:
- Visualisiert Häufigkeiten von Merkmalsausprägungen von kategorialen/metrisch diskreten Variablen
Abbildung in dieser Leseprobe nicht enthalten
Histogramm:
- Visualisiert die (gruppierte) Verteilung einer numerischen Variablen
Abbildung in dieser Leseprobe nicht enthalten
Verteilungsformen:
- Die Verteilung gibt an, wie wahrscheinlich bestimmte Werte sind. Je nachdem wo die meisten Werte liegen resultieren folgende Verteilungsformen:
Rechtschiefe Verteilungen: Mehr Werte sind im unteren Wertebereich; nach rechts langsam auslaufend
Linkssschiefe Verteilungen: Mehr Werte sind im oberen Wertebereich; nach links langsam auslaufend
Symmetrische Verteilungen: Daten sind symmetrisch um eine zentrale Lage verteilt
Mehrgipflige Verteilungen: Es gibt mehr als nur ein Zentrum um das die Werte streuen
Abbildung in dieser Leseprobe nicht enthalten
- Man sagt, dass Verteilungen zur Seite des langen Endes schief sind
Übungsfrage:
Welche Aussage stimmt vermutlich für die Verteilung des Einkommens?
a. Gleichverteilt
b. Multimodal
c. Normalverteilt
d. Linksschief
e. Rechtsschief
- da vermutlich viele ein mittleres Einkommen haben aber nur wenige ein hohes
Mosaikplot:
- Visualisiert die gemeinsame Verteilung von zwei kategorialen Variablen
- Die Höhe & Breite der Rechtecke entspricht der jeweiligen relativen Häufigkeit
Abbildung in dieser Leseprobe nicht enthalten
Streudiagramm:
- Visualisiert die gemeinsame Verteilung von zwei numerischen Variablen
Abbildung in dieser Leseprobe nicht enthalten
Liniendiagramm:
- Visualisiert zeitlichen Verlauf mindestens einer numerischen Variable
Abbildung in dieser Leseprobe nicht enthalten
Übungsfrage:
Mit welchem Verfahren kann die Verteilung des Merkmals Stundenlohn sinnvoll visualisiert werden?
a. Balkendiagramm
b. Histogramm
c. Streudiagramm
- Es wird ein Merkmal analysiert, daher scheidet Streudiagramm aus. Stundenlohn ist ein metrisches Merkmal, daher ist ein Histogramm eine geeignete Graphik. Ein Balkendiagramm wird bei nominalskalierten Merkmalen verwendet.
Lagemaße:
- Kennzahlen, die mit einer Zahl am besten das Ergebnis ausdrückt
Abbildung in dieser Leseprobe nicht enthalten
Minumum/Maximum: Kleineste/größte Merkmalsausprägung
Modus/Modalwert: Häufigste Merkmalsausprägung (Wert, der am häufigsten vorkommt)
Median/Zentralwert: Merkmalsausprägung, die bei aufsteigend sortierten Beobachtungen in der Mitte liegt
Arithmetischer Mittelwert: Summe aller Werte geteilt durch die Anzahl
Quantil: Das p-Quantil ist der Wert, für den gilt, dass er von p Prozent der Werte nicht überschritten wird
Abbildung in dieser Leseprobe nicht enthalten
Der Median ist robust gegenüber Ausreißern, der arithmetische Mittelwert nicht
Merken:
Linksschief: Mittelwert < Median
Symmetrisch: Mittelwert = Median
Rechtsschief: Mittelwert > Median
Übungsfragen:
Stimmt die Aussage: Die Berechnung des arithmetischen Mittelwerts ist bei nominalen Merkmalen nicht sinnvoll?
- Ja, da man mit nominalskalierten Daten nicht rechnen kann
Stimmt die Aussage: Der Median ist das 50% Quantil einer Verteilung?
- Ja, der Median ist der Wert, der von 50% der Werte nicht überschritten wird
Streuungsmaße:
- Fallen Daten gleich/ungleich aus?
Varianz: Maß für die durchschnittliche quadratische Abweichung zum Mittelwert. Durch das quadrieren werden Abweichungen zum Mittelwert nach oben oder unten gleich behandelt …und größere Abweichungen stärker gewichtet (Ausreißerempfindlich, da Mittelwert mit .. einfließt)
Standardabweichung: Quadratwurzel der Varianz
Interquartilsabstand: Oberes Quartil (75% Quantil) - Unteres Quartil (25% Quantil) (Ausreißerunempfindlich)
Spannweite: Maximum – Minimum
Übungsfragen:
Welche Aussage stimmt:
1. Die Standardabweichung ist robuster gegen Ausreißer als der Interquartilsabstand
2. Der Interquartilsabstand ist robuster gegen Ausreißer als die Standardabweichung
3. Interquartilsabstand und Standardabweichung sind gleich robust gegen Ausreißer
- 2. Die Varianz ist ausreißerempfindlich und somit auch die Standardabweichung
Abbildung in dieser Leseprobe nicht enthalten
Boxplot:
- visualisiert die Verteilung von deskriptiven Kennzahlen und mögliche Ausreißer einer numerischen Variable
Abbildung in dieser Leseprobe nicht enthalten
Sollten Punkte außerhalb der Antennen sein, sind dies mögliche Ausreißer!
Berechnung Ausreißer = 1,5 * IQR
Übungsfrage:
Abbildung in dieser Leseprobe nicht enthalten
Zusammenhangsmaße:
- Zusammenhang zwischen 2 Variablen
Abbildung in dieser Leseprobe nicht enthalten
Kovarianz: beschreibt den linearen Zusammenhang zweier metrischer Merkmale
Abbildung in dieser Leseprobe nicht enthalten
Übungsfrage:
Abbildung in dieser Leseprobe nicht enthalten
Stimmt die Aussage: Der Korrelationskoeffizient ist robust gegen Ausreißer?
- Nein, oben rechts bei den Ancombe Daten gibt es eigentlich gar keinen linearen Zusammenhang, dieser wird nur durch den Ausreißer vorgetäuscht. Die Kovarianz (auf der der Korrelationskoeffizient beruht) ist empfindlich gegen Ausreißer.
Einführung Inferenzstatistik:
Unterschied explorative Datenanalyse & Inferenzstatistik: explorative Datenanalyse à fasst Daten einer Stichprobe zusammen Inferenzstatistik à schließt von einer Stichprobe auf eine Grundgesamtheit
Abbildung in dieser Leseprobe nicht enthalten
Inferenzstatistik:
Idee: Schluss von einer Stichprobe auf eine Population
- Hypothesentest
- Punktschätzung
- Konfidenzintervall
Ziel: Aussagen treffen, die über die Stichprobe hinausgehen – und dabei berücksichtigen, dass ..Variationen allgegenwärtig sind – weshalb Schlussfolgerungen unsicher sind (denn ein 6er im ..Lotto wäre theoretisch immer möglich)
Das Testen von Hypothesen:
Nullhypothese H0: es gibt keinen Zusammenhang/Unterschied gerichtete (einseitige) Nullhypothese: Vermutung Männer geben mehr aus ungerichtete (zweiseitige) Nullhypothese: keine Aussage in welche Richtung es geht Alternativhypothese HA oder H1: Gegenteil der Nullhypothese (es gibt einen Zusammenhang)
Beispiele:
Abbildung in dieser Leseprobe nicht enthalten
Hypothesen werden in Analogie zu Gerichtsverfahren getestet:
- Die Beweislast liegt bei der Forschungsthese: Wir gehen von H0 aus: Der Angeklagte ist unschuldig, da ist nichts
- Wenn die Beweise (Daten) gegen den Angeklagten (H0) sprechen, haben wir berechtigten Zweifel an der Unschuld (H0)
- Wenn die Daten nicht ausreichen um zu zeigen, dass der Angeklagte schuldig ist, so sagen wir nicht er ist unschuldig (wir bestätigen die Nullhypothese) sondern: Wir können die Nullhypothese nicht verwerfen
P-Wert:
Abbildung in dieser Leseprobe nicht enthalten
Achtung:
- Der p – Wert gibt nicht an, wie wahrscheinlich die H0 bei den vorliegenden Daten ist
- Keine Entscheidung sollte auf Basis des p-Werts getroffen werden
Signifikanz:
- Das vorab festgelegte Signifikanzniveau a1 eines Tests gibt die maximal zugebilligte Irrtumswahrscheinlichkeit dafür an, H0 zu verwerfen, obwohl H0 gilt
- Gilt p – Wert < a, so wird H0 verworfen
- verwirft man H0, so nennt man das Ereignis signifikant
Fehlerarten:
Abbildung in dieser Leseprobe nicht enthalten
Grundbegriffe der Parameterschätzung (Punktschätzung):
- Punktschätzung: ein unbekannter Wert der Population wird anhand eines Wertes der Stichprobe geschätzt (Ù Symbol für Schätzung)
- Der Standardfehler beschreibt die Streuung eines Schätzwertes
- Die Anzahl der Freiheitsgrade gibt an, wie viele Beobachtungen dabei frei sind
Abbildung in dieser Leseprobe nicht enthalten
Merke:
- je größer die Sicherheit, desto breiter das Intervall
- je größer der Stichprobenumfang, desto kleiner das Intervall
Welche Schlüsse sind zulässig?
Abbildung in dieser Leseprobe nicht enthalten
Zufallsvariable:
- Eine Zufallsvariable X ist eine Variable, deren Wert X vom Zufall abhängt
Verteilungsfunktion:
Abbildung in dieser Leseprobe nicht enthalten
Dichtefunktion:
- Sagt aus, wie häufig jeder Wert vorkommt (sie hat also die Aufgabe, einen visuellen Eindruck der Verteilung zu vermitteln und drückt aus, in welchen Teilen sich die Werte der Zufallsvariablen am dichtesten scharen
Eigenschaften der Dichtefunktion:
- sie kann nur positive Werte annehmen
- Die Fläche unter der Dichtefunktion hat den Inhalt 1
- sie ist symmetrisch
Übungsfragen:
Abbildung in dieser Leseprobe nicht enthalten
[...]
-
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X.