Ein in der Marktforschungspraxis häufig auftretendes Phänomen ist das Problem der fehlenden Werte innerhalb einer erhobenen Datenbasis. Dieses tritt auf, wenn Fragen durch den Interviewten nicht beantwortet werden können, Antworten verweigert werden oder wenn bei der Beantwortung einer Frage Werte angegeben werden, die sich außerhalb des vorgegebenen Antwortrahmens befinden. Liegt eine unvollständige Datenbasis vor, ist es zumeist nicht möglich, diese anhand multivariater Verfahren, wie z.B. der Varianz- oder Clusteranalyse zu analysieren. Diese gehen in ihren Grundannahmen von einer vollständigen Datenmatrix aus. Da fehlende Werte in einer Stichprobe auch zu verzerrten Untersuchungsergebnissen führen können, ist es notwendig, für dieses Problem Lösungsansätze zu finden. Der Marktforscher sieht sich vor die Frage gestellt, wie dieses Problem am sinnvollsten zu lösen ist.
Die vorliegende Seminararbeit liefert zunächst eine ausführliche Charakterisierung des Problems fehlender Werte (Begriffsdefinition, Ursachen etc.), um dann auf die einzelnen Testmöglichkeiten einzugehen, die zur Analyse der Datenbasis dienen. Der Schwerpunkt der Arbeit liegt auf der Darstellung der verschiedenen Verfahren zur Behandlung fehlender Werte (Eliminierungs-, Imputations- und Parameterschätzverfahren).
Inhaltsverzeichnis
1 Einführung
2 Charakterisierung des Problems fehlender Werte
2.1 Begriffsdefinition „fehlende Werte“
2.2 Ursachen fehlender Werte in der Datenbasis
2.3 Ausfallmechanismen
3 Analyse der zugrunde liegenden Datenbasis
3.1 Test auf MAR
3.2 Test auf MCAR
4 Verfahren zur Behandlung fehlender Werte
4.1 Eliminierungsverfahren
4.2 Imputationsverfahren
4.3 Parameterschätzverfahren
5 Diskussion und Bewertung
Literaturverzeichnis
1 Einführung
Ein in der Marktforschungspraxis häufig auftretendes Phänomen ist das Problem der fehlenden Werte innerhalb einer erhobenen Datenbasis. Dieses tritt auf, wenn Fragen durch den Interviewten nicht beantwortet werden können, Antworten verweigert werden oder wenn bei der Beantwortung einer Frage Werte angegeben werden, die sich außerhalb des vorgegebenen Antwortrahmens befinden. Liegt eine unvollständige Datenbasis vor, ist es zumeist nicht möglich, diese anhand multivariater Verfahren, wie z.B. der Varianz- oder Clusteranalyse zu analysieren. Diese gehen in ihren Grundannahmen von einer vollständigen Datenmatrix aus. Da fehlende Werte in einer Stichprobe auch zu verzerrten Untersuchungsergebnissen führen können, ist es notwendig, für dieses Problem Lösungsansätze zu finden.
Der Marktforscher sieht sich vor die Frage gestellt, wie dieses Problem am sinnvollsten zu lösen ist. Eine schnelle und einfache Lösung ist die Elimination, bei der unvollständige Datensätze einfach aus der Datenmatrix entfernt werden und die Analyse auf Grundlage der in der Stichprobe verbliebenen Werte durchgeführt wird. Nicht selten kommt es bei dieser Vorgehensweise jedoch zu verzerrten Untersuchungsergebnissen. Weitere Möglichkeiten, mit dem Problem fehlender Werte umzugehen, sind die Schätzung von fehlenden Werten mit Hilfe geeigneter Parameter oder die Imputation durch Ersatzwerte. Diese zwei Verfahren zur Behandlung fehlender Werte, das so genannte Parameterschätzverfahren und das Imputationsverfahren, werden ebenso wie das bereits erwähnte Verfahren der Elimination im vierten Kapitel ausführlich dargestellt.
Zuvor erfolgt in Kapitel zwei eine genaue Definition des Begriffs „fehlende Werte“ und ein Überblick über die vielfältigen Ursachen, die zu einer unvollständigen Datenbasis führen können. Durch sorgsame Betrachtung und Analyse der Ursachen ist es oftmals bereits im Vorfeld möglich, den Anteil fehlender Werte in einer Stichprobe zu reduzieren, indem missverständliche Fragestellungen oder ein fehlerhaftes Untersuchungsdesign erkannt und modifiziert werden. Eine Definition und Darstellung der beiden grundlegenden Ausfallmechanismen erfolgt im gleichen Kapitel. Man unterscheidet zwischen systematischen und unsystematischen Ausfallmechanismen, die für die Analyse der Daten jeweils unterschiedliche Konsequenzen haben.
Kapitel drei befasst sich mit zwei Testannahmen, die im Rahmen der Strukturanalyse überprüft werden: die Tests auf MAR und MCAR. Sie bilden die Grundlage für das weitere Vorgehen bzw. sie bedingen unterschiedliche Vorgehensweisen bei der Behandlung der fehlenden Daten. Die möglichen Verfahrensweisen im Umgang mit den fehlenden Daten werden abschließend im vierten Kapitel ausführlich dargestellt und in Kapitel fünf hinsichtlich ihrer Vor- und Nachteile diskutiert und bewertet.
2 Charakterisierung des Problems fehlender Werte
2.1 Begriffsdefinition „fehlende Werte“
Als fehlende Werte einer Datenerhebung bezeichnet man alle Werte, die bei der Beantwortung z.B. eines Fragebogens entweder ganz ausgelassen oder fehlerhaft beantwortet wurden. Somit sind sämtliche Variablenwerte, „ die von den Befragten entweder außerhalb des zul Ässigen Beantwortungsintervalls vergeben oderüberhaupt nicht eingetragen wurden “ (Backhaus et al. 2003, S.22) als fehlende Werte zu bezeichnen. Weitere Begriffe wie incomplete data, missing data, missing values oder auch fragmentary data werden synonym verwandt, am häufigsten findet man in der Literatur jedoch die englische Übersetzung „missing values“.
Eine weitere Unterscheidung ergibt sich hinsichtlich des Fehlens von Werten bezüglich einer Untersuchungseinheit. Sind einzelne Daten einer Untersuchungseinheit nicht vorhanden, so spricht man von „item nonresponse“. Dies wäre der Fall, wenn der Befragte zu einzelnen Fragen keine Angaben macht. Im Gegensatz dazu fehlen bei einem „unit nonresponse“ alle Angaben bezüglich einer Untersuchungseinheit, z.B. wenn der Befragte zu sämtlichen Fragen keine Angaben macht und den Fragebogen unbeantwortet lässt.
2.2 Ursachen fehlender Werte in der Datenbasis
Ist eine Datenbasis unvollständig bzw. weist sie fehlende Werte auf, so können die Ursachen dafür sowohl auf der Seite des Interviewers als auch auf der Seite des Befragten liegen. Nach Schnell (1986, S. 24 ff.) können ein mangelhaft erstelltes Untersuchungsdesign, Unaufmerksamkeit bei der Beobachtung des Befragten oder Filterfehler seitens des Interviewers (sog. Skip-Fehler) zu unvollständigen Daten führen. Als Beispiel für ein fehlerhaft erstelltes Untersuchungsdesign wäre die Frage nach der verwendeten Rasierwassermarke, ohne bereits im Vorfeld mithilfe von Filterfragen weibliche Auskunftspersonen von männlichen Auskunftspersonen separiert zu haben. Eine weitere mögliche Ursache sind fehlerhafte Codierungen vorliegender Werte oder Übertragungsfehler bei der Dateneingabe. Um fehlende Werte zu vermeiden ist es deshalb bei der Datenaufbereitung erforderlich, fehlende Werte (Antworten in der Kategorie „keine Angabe“) einheitlich zu codieren.
Ebenso existieren Ursachen, die durch den Befragten bedingt sind. Insbesondere bei der Verwendung von Fragebögen ist es wichtig, dass die Auskunftsperson die Fragen inhaltlich versteht und in der Lage ist, diese zu beantworten. Ein weiterer maßgeblicher Punkt ist die Auskunftswilligkeit des Interviewten, bei der auch die soziale Erwünschtheit der Antworten eine signifikante Rolle spielt. Werden die Fragen in einen längeren Text eingebettet und möglichst sachlich und neutral durch den Interviewer vorgetragen, verringert sich nach Sudman/ Blair (1998, S. 263 ff.) jedoch die Wahrscheinlichkeit der Auskunftsverweigerung.
Um den Anteil fehlender Werte in einer Datenbasis weitestgehend zu reduzieren, ist es sinnvoll, bereits bei der Gestaltung des Fragebogens unklare bzw. missverständliche Fragestellungen zu markieren, um diese im späteren Pretest zu überprüfen, gegebenenfalls zu modifizieren oder komplett zu eliminieren. In diesem Zusammenhang haben Sudman/ Blair (1998, S. 285 ff.) weitere Vorschläge entwickelt, die helfen sollen, bei der Erarbeitung eines Fragebogens Fehler dieser Art von vorneherein zu vermeiden. Als Beispiel sei hier die Reihenfolge der Fragestellung oder auch die formale Gestaltung von Fragebögen genannt. Weitere Ursachen für das Auftreten fehlender Werte sind Motivationsschwierigkeiten des Interviewers und des Befragten sowie unvollständige bzw. ungeeignete Sekundärdaten. Gerade bei der Einbeziehung von Sekundärdaten in eine Datenerhebung ist die Aktualität und Genauigkeit der Daten von maßgeblicher Bedeutung.
Die nachfolgende Tabelle liefert abschließend eine Übersicht über die Ursachen fehlender Werte:
Tab. 1: Ursachen fehlender Werte
Abbildung in dieser Leseprobe nicht enthalten
2.3 Ausfallmechanismen
Die in Kapitel vier dargestellten Verfahren zur Lösung des Problems fehlender Werte stellen unterschiedliche Anforderungen an die Struktur der vorliegenden Datenbasis. So ist neben der Frage nach den Ursachen fehlender Werte auch die Frage nach der Art des Ausfallmechanismus von Bedeutung. Als Ausfallmechanismus werden Mechanismen bezeichnet, die ursächlich für das Fehlen der Werte sind. Hierbei unterscheidet man zwischen systematischen und unsystematischen Ausfallmechanismen. Um eine Systematik der Daten erkennen zu können, betrachtet man die erhobene Datenmatrix und überprüft einen möglichen Zusammenhang zwischen dem datengenerierenden Prozess und den beobachteten und den fehlenden Werten.
Ein unsystematischer Ausfallmechanismus liegt dann vor, wenn die Daten zufällig fehlen, d.h. wenn sich Faktoren, die die Untersuchungssituation beeinflussen, nicht ausschließlich auf ein konkretes Objekt bzw. Merkmal konzentrieren. Unsystematisch fehlende Daten verzerren das Ergebnis der Untersuchung nicht. In der Literatur existieren unterschiedliche Definitionen für einen unsystematischen Ausfallmechanismus. Durchgesetzt hat sich jedoch die Definition von Rubin (1976, S. 584 f.), bei der zwei Anforderungen an unsystematisch fehlende Werte gestellt werden. Rubin unterscheidet zwischen den Eigenschaften missing at random (MAR) und missing completely at random (MCAR). Die Daten besitzen die Eigenschaft MAR, wenn das Fehlen der Werte nicht von den fehlenden Ausprägungen an sich abhängt, jedoch eine Dependenz zu den vollständig vorliegenden Werten möglich ist. Ein Beispiel hierfür ist das Auftreten fehlender Werte bei der Datenerhebung bezüglich der Merkmale Alkoholkonsum und Grad der Religionsausübung der befragten Personen. Für den Fall, dass das Fehlen der Werte unabhängig von der Höhe des Alkoholkonsums, gleichzeitig jedoch die Möglichkeit besteht, dass die Antwortverweigerung bei hoher Religiosität zunimmt, so besitzen die Daten die Eigenschaft MAR. Liegen die Merkmalsausprägungen unabhängig von den beobachteten Werten vor, so bezeichnet man die Daten als observed at random (OAR).
Die strikteste Eigenschaft missing completely at random ist gegeben, wenn die Vorbedingungen MAR und OAR gleichzeitig vorliegen. Die Daten sind dann zufällig verteilt, d.h. es besteht kein Zusammenhang zwischen dem Fehlen der Werte und den vorhandenen und fehlenden Werten. Bezogen auf das obige Beispiel, würde hier zwischen dem Fehlen der Angaben und der Höhe des Alkoholkonsums bzw. des Grades der Religionsausübung Unabhängigkeit bestehen.
Ist die MAR Bedingung nicht erfüllt, bedarf es keiner weiteren Überprüfung der Eigenschaft OAR mehr; die Daten fehlen in diesem Fall nicht zufällig, sondern unterliegen einem systematischen Ausfallmechanismus.
3 Analyse der zugrunde liegenden Datenbasis
3.1 Test auf MAR
Um das Problem fehlender Werte einer Stichprobe mit den in Kapitel vier dargestellten Verfahren behandeln zu können, muss in der Ausgangsstichprobe in vielen Fällen ein unsystematischer Ausfallmechanismus vorliegen, das heißt, die Daten müssen zufällig verteilt sein und der Eigenschaft MAR genügen. Um diese Annahme zu überprüfen, führt man im Rahmen der Strukturanalyse Tests auf MAR durch, bei denen die Datenmatrix mit der Indikatormatrix verknüpft und anschließend deren Abhängigkeit bzw. Unabhängigkeit geprüft wird. Die Annahme der Eigenschaft MAR wird bestätigt, wenn zwischen den beiden Matrizen Unabhängigkeit nachgewiesen werden kann.
Im Folgenden sollen zwei bivariate Testverfahren vorgestellt werden: der Chi- Quadrat-Test und der Einstichproben-t-Test. Bei beiden statistischen Tests wird auf der Grundlage der vorliegenden Stichprobe und unter Beachtung des jeweiligen Verteilungsmodells eine Hypothese H0 aufgestellt. Deren Annahme oder Ablehnung wird anhand einer Prüfgröße, der so genannten Teststatistik (spezielle Stichprobenfunktion) entschieden. Die Annahme der Hypothese H0 lautet auf das zufällige Fehlen der Daten, die Gegenhypothese H1 beinhaltet die These des systematischen Fehlens der Daten. Zur Überprüfung der MAR-Annahme existieren verschiedene Verfahren. Nach Frane (1978, S. 28) ist es möglich, eine dichotomisierte Indikatorvariable zu generieren, auf deren Basis verschiedene Testverfahren angewandt werden können. Diese, aus einer Variablen mit einem hohen Anteil fehlender Merkmalswerte generierten 0/1-Variable, beschreibt das Fehlen (0) bzw. Nichtfehlen (1) der Werte. Voraussetzung hierfür ist eine Verbindung der Indikatorvariablen mit dem Prozess, der die fehlenden Werte erzeugt. Anhand des Chi-Quadrat- Anpassungstests für den Fall nominalskalierter Variablen und des Einstichproben-t- Tests für intervallskalierte Variablen lässt sich die Unabhängigkeit überprüfen. Wird die MAR-Annahme bestätigt, so fehlen die Daten zufällig. Sowohl der Chi-Quadrat-Test als auch der t-Test sind Verfahren, die zur Überprüfung der Unterschiede zwischen zwei Merkmalen bzw. Gruppen dienen. Im Fall des Einstichproben-t-Tests erfolgt ein Vergleich von Lage- und Streuungsparametern, wie z.B. bei dem t-Test auf die Differenz zweier Mittelwerte. Der Chi-Quadrat-Test ist das am häufigsten verwendete statistische Verfahren zum Testen der Hypothese auf Unabhängigkeit zweier Merkmale. Man vergleicht hierbei die empirischen mit den erwarteten Häufigkeiten und gelangt dabei zu einer Teststatistik. Diese wird mit dem dazugehörigen Wert der Chi- Quadrat-Verteilung verglichen und führt zu einer Annahme oder Ablehnung der Nullhypothese.
Nach Schnell (1986) werden sämtliche Tests auf MAR jedoch problematisch, sobald mehrere Fehler generierende Prozesse existieren und auch nur einer der Prozesse systematischer Natur ist. Abschließend sollte noch erwähnt werden, dass die genannten Testverfahren nur eingeschränkt bei der Datenanalyse hilfreich sind. Sie liefern bei der Annahme von H0 immer nur die notwendige Bedingung für das unsystematische Fehlen der Daten. Um das Problem fehlender Werte zu lösen, muss somit auf die Verfahren in Kapitel vier verwiesen werden.
3.2 Test auf MCAR
Für den Fall, dass die MAR-Annahme bestätigt wird, ist es sinnvoll, zu überprüfen, ob die Daten möglicherweise auch die MCAR-Eigenschaft besitzen. Bei der Durchführung von Tests auf MCAR werden die Unabhängigkeit der Merkmale bzw. Lageunterschiede überprüft. Dies geschieht in Abhängigkeit von der Verteilungsannahme bzw. des jeweiligen Messniveaus in Form des Zweistichproben-t-Tests, des Vorzeichentests oder des Chi-Quadrat-Unabhängigkeitstests.
Im Rahmen der Strukturanalyse erwähnt Bankhofer (1995, S. 29 ff.) neben dem Aspekt der induktiven Analyse, zu der die oben genannten Testverfahren auf MAR und MCAR zählen, noch die deskriptive und die explorative Analyse einer Datenmatrix. Bei der deskriptiven Analyse können Maßzahlen bestimmt werden, die eine Aussage über die fehlenden Werte hinsichtlich ihres Ausmaßes (einfache Kennzahlen) oder ihrer Beziehung zwischen einzelnen Objekten (Zusammenhangsmaße) erlauben. Die grafische Darstellung der fehlenden Werte zählt ebenfalls zu der deskriptiven Datenanalyse. Die explorative Analyse erforscht die Zusammenhänge der fehlenden Werte innerhalb der Datenmatrix, um etwaige Interdependenzen der fehlenden Werte frühzeitig zu erkennen. Ausgehend von der vorliegenden Indikatormatrix dienen hier die Faktoren-, Cluster-, Dependenz- und Korrelationsanalyse als Ansatz. Für ausführlichere Darstellungen beider Analyseansätze sei auf Bankhofer (1995, S. 30 ff.) verwiesen.
4 Verfahren zur Behandlung fehlender Werte
Die Ergebnisse der Datenanalyse bilden die Grundlage für das weitere Vorgehen im Rahmen der Behandlung der fehlenden Werte. Schwab (1991) unterscheidet zwischen dem Verfahren der Eliminierung unvollständiger Daten, der Schätzung von Parametern und dem so genannten Verfahren der Imputation.
[...]
- Citation du texte
- Christina Daase (Auteur), 2005, Fehlende Werte in der Marktforschung - Problembehandlung und Diskussion, Munich, GRIN Verlag, https://www.grin.com/document/77567
-
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X.