Ziel der vorliegenden Arbeit ist es, die bei der Erhebung bzw. Auswertung von Lohndatensätzen entstehenden Probleme zu erläutern. Dazu wird in Kapitel 2 zunächst ein Überblick über die wichtigsten Erhebungen gegeben und auf die 3 im Weiteren zugrunde liegenden Untersuchungen „Lohn- und Gehaltsstrukturerhebung“, „Europäisches Haushaltspanel“ und „Sozioökonomisches Panel“ wird kurz näher eingegangen, die Abweichungen zwischen diesen Erhebungen werden dann in Kapitel 3 analysiert und der systematische Fehler wird herausgefiltert und modelliert. Mit Hilfe der Aufsplittung des Fehlerterms wird es ermöglicht, für die Jahre, in denen die GLS nicht durchgeführt wird, eine Schätzung der tatsächlichen Einkommensverteilung auf Basis des SOEP oder des EHP vorzunehmen obwohl diese Erhebungen Verzerrungen aufweisen.
Da selbst linkssteile parametrische Verteilungen wie die Lognormal-Verteilung nur begrenzt dazu in der Lage sind die wahren Werte der Lohnverteilung wiederzuspiegeln, werden in Kapitel 4 die Grundlagen der Kerndichteschätzung als Instrument der nichtparametrischen Ökonometrie vorgestellt. Am Ende von Kapitel 3 und 4 werden die theoretischen Resultate jeweils anhand eines Beispiels anschaulich dargestellt und in Kapitel 5 werden die wichtigsten Ergebnisse schließlich nochmals komprimiert wiedergegeben.
Inhaltsverzeichnis
Abbildungsverzeichnis
Abkürzungsverzeichnis
Symbolverzeichnis
1. Einleitung
2. Erfassung des Einkommens
2.1. Gehalts- und Lohnstrukturerhebung
2.2. Europäisches Haushaltspanel
2.3. Sozioökonomisches Panel
3. Bestimmung der wahren Lohnverteilung
3.1. Vergleichbarkeit
3.2. Messfehler
3.2.1. Einführung
3.2.2. Bias
3.2.2.1. Vorbemerkungen
3.2.2.2. Schätzung
3.2.2.3. Erwartungstreue
3.3. Lohnverteilung
3.4. Anwendung
4. Nichtparametrische Verfahren
4.1. Anpassungstest
4.2. Nichtparametrische Dichteschätzung
4.2.1. Einführung
4.2.2. Univariate Kerndichteschätzung
4.2.2.1. Vom Histogramm zur Kerndichteschätzung
4.2.2.2. Fehlermaß MISE
4.2.2.3. Bandbreite
4.2.2.4. Anwendung
4.2.3. Erweiterungsmöglichkeiten
5. Fazit
Literaturverzeichnisi
Anhang
Abbildungsverzeichnis
Abbildung 1: Einkommenserhebungen
Abbildung 2: Abhängigkeit
Abbildung 3: Streudiagramm und Vergleich von kubischer und linearer Schätzung
Abbildung 4: Übersicht der wichtigsten Kernfunktionen
Abbildung 5: Histogramm mit h=800
Abbildung 6: Dichteschätzer f, h=800
Abbildung 7: Gauß-Kerne einzeln und summiert
Abbildung 8: Verschiedene Kerndichteschätzer im graphischen Vergleich
Abbildung 9: Kerndichteschätzer mit Gauß-Kern für verschiedene Bandbreiten
Abbildung 10: Verteilungsfunktion
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Symbolverzeichnis
Abbildung in dieser Leseprobe nicht enthalten*
1. Einleitung
Ziel der vorliegenden Arbeit ist es, die bei der Erhebung bzw. Auswertung von Lohndatensätzen entstehenden Probleme zu erläutern. Dazu wird in Kapitel 2 zunächst ein Überblick über die wichtigsten Erhebungen gegeben und auf die 3 im Weiteren zugrunde liegenden Untersuchungen „Lohn- und Gehaltsstruktur- erhebung“, „Europäisches Haushaltspanel“ und „Sozioökonomisches Panel“ wird kurz näher eingegangen, die Abweichungen zwischen diesen Erhebungen werden dann in Kapitel 3 analysiert und der systematische Fehler wird heraus- gefiltert und modelliert. Mit Hilfe der Aufsplittung des Fehlerterms wird es er- möglicht, für die Jahre, in denen die GLS nicht durchgeführt wird, eine Schät- zung der tatsächlichen Einkommensverteilung auf Basis des SOEP oder des EHP vorzunehmen obwohl diese Erhebungen Verzerrungen aufweisen.
Da selbst linkssteile parametrische Verteilungen wie die Lognormal-Verteilung nur begrenzt dazu in der Lage sind die wahren Werte der Lohnverteilung wiederzuspiegeln, werden in Kapitel 4 die Grundlagen der Kerndichteschätzung als Instrument der nichtparametrischen Ökonometrie vorgestellt. Am Ende von Kapitel 3 und 4 werden die theoretischen Resultate jeweils anhand eines Beispiels anschaulich dargestellt und in Kapitel 5 werden die wichtigsten Ergebnisse schließlich nochmals komprimiert wiedergegeben.
2. Erfassung des Einkommens
Bei der Erhebung der Einkommen ist zunächst nach der Erhebungseinheit, die zum einen die Quelle (Unternehmen) oder andererseits der Empfänger (Indivi- duen, Haushalte) sein kann, zu unterscheiden. In einem weiteren Schritt kön- nen diese dann jeweils in Primär- (für diese Untersuchung erhobenes Daten- material) und Sekundärerhebungen (bereits vorhandenes Datenmaterial) unter- teilt werden. Abbildung 1 gibt einen Überblick über die Erhebungen zum Ein- kommen.2
2.1. Gehalts- und Lohnstrukturerhebung
Da die Gehalts- und Lohnstrukturerhebung eine amtliche Erhebung auf Be- triebsebene ist und 1996 mit 900.000 Personen, die 11,5 Millionen Beschäftigte repräsentieren, eine sehr große Stichprobe untersucht wurde, kann die empiri- sche Verteilung der Gehalts- und Lohnstrukturerhebung (GLS) als sehr nah an der tatsächlichen Einkommensverteilung3 angenommen werden4, zumal die Unternehmen einer Auskunftspflicht unterliegen. Ein weiteres Indiz für die Ap- proximierbarkeit der tatsächlichen Verteilung liegt in der auf dem Ziel der Ein- kommensstrukturermittlung basierenden Genauigkeit der Fragen begründet.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Einkommenserhebungen
Quelle: in Anlehnung an Krug et al. (2001), S. 364
Aufgrund des mit einer Erhebung dieses Ausmaßes verbundenen Aufwands wurde die GLS nur alle 5 Jahre durchgeführt, wird aber seit 2002 in einem 4- Jahres-Rhythmus durchgeführt.5
2.2. Europäisches Haushaltspanel
Das Europäische Haushaltspanel (EHP) wird jährlich von Eurostat mit dem Ziel erhoben international vergleichbare Angaben zur Einkommensentwicklung und verwandten Themengebieten (Lebensstandard, Armut, etc.) zu erhalten. Im Gegensatz zur GLS wird das EHP jährlich durchgeführt und liegt im Stich- probenumfang (rund 5.000 Haushalte) deutlich darunter. Außerdem wird das Durchschnittseinkommen und nicht das eines bestimmten Monats erfragt.
„Da die Erhebung ohne Auskunftspflicht stattfindet, ergeben sich hohe Nonresponse-Raten“6, was durch eine Teilnahmebereitschaft von 49% und unter den Teilnehmenden durch eine Antwortbereitschaft zum Jahreseinkommen der hauptsächlich erwerbstätigen Personen von 90% ausgedrückt wird.
2.3. Sozioökonomisches Panel
Das Sozioökonomische Panel (SOEP) umfasste 1996 etwa 7.000 Haushalte und war damit im Stichprobenumfang auch deutlich kleiner als die GLS. Berichtszeitraum des SOEP sind die Monate Januar bis April, wodurch sich ein Unterschied zu den beiden anderen Untersuchungen, die jeweils im Oktober durchgeführt werden, ergibt.
Das SOEP ist nicht repräsentativ für die erwerbstätige Bevölkerung sondern für die Wohnbevölkerung in Deutschland und die zentralen Erhebungsbereiche sind eher Einkommensmobilität und Arbeitslosigkeitsdynamik als eine valide Einkommensstruktur wie bei der GLS.7
3. Bestimmung der wahren Lohnverteilung
Das Vorgehen zur Bestimmung der tatsächlichen Lohnverteilung für Jahre, in denen die GLS nicht durchgeführt wird, soll zunächst formal beschrieben wer- den und wird anschließend anhand eines Beispiels mit teilweise wahren Para- metern der GLS (für 1995) und des EHP (1995) veranschaulicht und die Lohn- verteilung für 1996 anhand einer unterstellten Lohnverteilung des EHP (1996) geschätzt.
3.1. Vergleichbarkeit
Da die GLS von einer anderen Grundgesamtheit (Wirtschaftszweig, Betriebs- größe, etc.) ausgeht als die beiden anderen Erhebungen, muss zur Vergleich- barkeit der erhobenen Daten zunächst gewährleistet werden, dass nur die ge- meinsame Schnittmenge in die Untersuchung einfließt. Außerdem muss den unterschiedlichen Bezugszeiträumen der Befragungen Rechnung getragen werden. Dies geschieht in Jacobebbinghaus’ Untersuchung8 unter anderem durch die Einbeziehung zweier aufeinander folgender Erhebungen des SOEP sowie die Beschränkung auf abhängig Beschäftigte ausgewählter Wirtschafts- zweige. Aufgrund der Modifizierung der Ergebnisse durch Jacobebbinghaus liegen auch keine verwertbaren Ergebnisse des EHP für 1996 vor, weshalb im Beispiel eine angegebene Lohnverteilung unterstellt werden muss. Da die Thematisierung dieses Problems jedoch keinen Schwerpunkt der vorliegenden Arbeit bilden soll, sei an dieser Stelle lediglich darauf hingewiesen.
3.2. Messfehler
3.2.1. Einführung
Peter Jacobebbinghaus verwendet den Begriff „Messfehler“ als Oberbegriff für alle Abweichungen. Demgegenüber wird in dieser Arbeit zwischen dem zufälli- gen Fehler σ und dem systematischen Fehler İ unterschieden. Im systemati- schen Fehler (Bias, Verzerrung) sind grundsätzlich einige verschiedene Fehler- quellen zusammengefasst9, wovon für uns die Antwortausfälle einerseits und andererseits die Fehler bei den Auskunftspersonen von besonderer Bedeutung sind. Zu ersterem zeigt Biewen, dass „[…] results on earnings inequality using data from the [SOEP] are unlikely to be biased by earnings non-response.“10 Aufgrund dessen wird im Weiteren davon ausgegangen, dass die Verzerrung ausschließlich aus durch von Auskunftspersonen begangenen Fehlern wie z.B. Rundungen besteht. Damit sich die Fehler nicht gegenseitig aufheben können, kann für die Aggregation der absolute oder quadratische Fehler verwendet wer- den, wobei sich auf die letztgenannte Variante beschränkt werden soll.
Sei[Abbildung in dieser Leseprobe nicht enthalten] eine Zufallsvariable mit der Stichprobenrealisation x1,…, xn, dem Stichprobenmittelwert[Abbildung in dieser Leseprobe nicht enthalten] sowie der Stichprobenvarianz [Abbildung in dieser Leseprobe nicht enthalten] und seien [Abbildung in dieser Leseprobe nicht enthalten] die entsprechenden Momente der „wahren“ Verteilung. Der mittlere quadratische Fehler (MSE) ergibt sich somit als
2 2 2
MSE = Varianz (x) + (Bias (x)) =σ +ε (1)
Die beiden Fehlerarten unterscheiden sich in einigen Punkten. Während gemäß dem Gesetz der großen Zahlen sich die zufälligen individuellen Fehler gegenseitig aufheben, können systematische Fehler als „Abweichungen gegenüber der Wirklichkeit, die stets in einer Richtung auftreten, bezeichnet werden“11, d.h. sie kumulieren sich also. Ein weiteres Kriterium ist die Messbarkeit. Die Standardabweichung lässt sich einfach ermitteln und für einen hinreichend großen Stichprobenumfang lässt sich auch der wahre Wert gut schätzen. Demgegenüber kann der Bias nicht aus der vorhandenen Stichprobe abgeleitet werden, d.h. man benötigt die wahre Verteilung bzw. eine verlässliche Kontrollerhebung. Letztere stellt in dieser Untersuchung die GLS dar.
3.2.2. Bias
3.2.2.1. Vorbemerkungen
Geht man davon aus, dass für jeweils alle Antworten xi der Teilnehmer des SOEP die korrekten Angaben yi aus der GLS bekannt sind, so ergeben sich die Momente für den systematischen Fehler als
Abbildung in dieser Leseprobe nicht enthalten
und das wahre Einkommen kann für jedes Individuum geschrieben werden als
Abbildung in dieser Leseprobe nicht enthalten
Für jene Jahre, in denen die GLS nicht durchgeführt werden kann, die yi also unbekannt sind, können die εi nicht berechnet werden. Daher sollen sie zunächst genauer untersucht und schließlich geschätzt werden.
3.2.2.2. Schätzung
Da für amerikanische Einkommen eine positive Korrelation von Einkommen und Bias nachgewiesen werden konnte (z.B. 0,4 zwischen der Angabe des letzten erhaltenen Monatslohns 1986 und dem Bias)12 und Biewen gezeigt hat, dass im SOEP die Antwortausfälle nicht unabhängig vom Einkommen auftreten13, ist davon auszugehen, dass die Verzerrung und das Einkommen nicht unabhängig sind. Des Weiteren ist auch der Einfluss weiterer Merkmale wie Alter, Betriebs- zugehörigkeit, Geschlecht, Bildung, etc. auf den systematischen Fehler nicht a priori auszuschließen, weshalb diese jeweils auf Unabhängigkeit überprüft wer- den müssen. Somit ergibt sich bei Unterstellung eines linearen Zusammen- hangs
Abbildung in dieser Leseprobe nicht enthalten
mit xi1 als der Einkommensangabe im SOEP und [Abbildung in dieser Leseprobe nicht enthalten] als weiteren be- einflussenden Variablen. [Abbildung in dieser Leseprobe nicht enthalten] ist dabei eine transponierte [Abbildung in dieser Leseprobe nicht enthalten] und [Abbildung in dieser Leseprobe nicht enthalten] ist eine n [Abbildung in dieser Leseprobe nicht enthalten] mit [Abbildung in dieser Leseprobe nicht enthalten] für alle i. Für die Residuen gelten die üblichen An- nahmen der Unabhängigkeit und Normalverteilung mit Erwartungswert 0, also
Abbildung in dieser Leseprobe nicht enthalten
σUε ). Das lineare Modell lässt sich nun leicht in ein nichtlineares überführen und man erhält
Abbildung in dieser Leseprobe nicht enthalten
Der Graph zeigt eine mögliche Struktur der Abhängigkeit des systematischen Fehlers (6) von den Einflussgrößen Bildung (1), Anstellungsverhältnis14 (2), Dauer der Firmenzugehörigkeit (3), Position im Unternehmen (4), wahres Einkommen (5), Ein- kommensangabe (6) und Bias (7). Auch eine beliebige Erwei- terung um Faktoren wie Alter oder Familienstand würde den unteren Teil des Graphs nicht verändern, da diese maximal auf x5 wirken würden. Sei der Graph der Abbildung 2 eine perfekte
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Abhängigkeit
Abbildung, dann gilt, dass gegeben die Einkommensangabe der systematische Fehler unabhängig von allen anderen Ein- flussgrößen ist und sich daher für den Fall eines linearen Zu- sammenhangs darstellen lässt als
Abbildung in dieser Leseprobe nicht enthalten
bzw. in allgemeiner Form als
Abbildung in dieser Leseprobe nicht enthalten15
Zwei Annahmen sind hier besonders fragwürdig: Neben der zu unterstellenden Unabhängigkeit der Ui und deren Normalverteilung, ist dies die Annahme, dass das angegebene Einkommen unabhängig von allen anderen Faktoren gegeben das tatsächliche Einkommen ist. Trotzdem sollen diese Annahmen hier gelten.
Um aus der Einkommensverteilung des SOEP in jenen Jahren, in denen die GLS nicht durchgeführt wird auf die wahre Einkommensverteilung schließen zu können ist eine weitere Annahme wesentlich: Der systematische Fehler muss über die Zeit konstant sein. Für amerikanische Daten der Jahre 1985 und 1986 haben Rodgers et al. festgestellt, dass die systematischen Fehler ziemlich stark positiv korreliert sind16, daher erscheint diese Annahme als nicht allzu einschränkend17 und es gelte für alle T Jahre zwischen zwei GLS
Abbildung in dieser Leseprobe nicht enthalten
Ein weiteres Problem stellt schließlich der Fakt dar, dass den einzelnen Panel- teilnehmern nicht ihr individuelles wahres Einkommen entgegengehalten wer- den kann. Ein Lösungsvorschlag dafür besteht in dem Vergleich von Quantilen der vorliegenden Verteilungen. Ersetzt man den Index i für die individuellen Stichprobenrealisationenurch den Index q für das [Abbildung in dieser Leseprobe nicht enthalten] -Quantil (d.h. der Me- dian wird hier geschrieben als x50) erhält man als Schätzwert für die Verzerrung
Abbildung in dieser Leseprobe nicht enthalten
Die Parameter γk müssen ebenfalls geschätzt werden. Dies kann im linearen Fall mittels KQ-Methode geschehen und ist unabhängig von Variablenanzahl und unterstellter Funktion mittels der Maximum-Likelihood-Schätzung möglich.18
3.2.2.3. Erwartungstreue
Allgemein gilt, dass ein Schätzerdann erwartungstreu ist, wenn [Abbildung in dieser Leseprobe nicht enthalten] gilt. Für den Fall der univariaten linearen Regression soll dies anhand des arithmetischen Mittels überprüft werden.
Abbildung in dieser Leseprobe nicht enthalten
Sind die ersten Umformungen alle trivialer Natur, so ist die letzte durch die Eigenschaft der Residuen - eine Summe von 0 aufzuweisen - begründet und man erhält daher den selben Mittelwert für die Schätzung wie für die tatsächliche Verteilung. Der Schätzer ist also erwartungstreu.
Dies gilt so jedoch nicht für den Bias-Schätzer auf Basis der Quantile, da nur ein Teil der Stichprobe betrachtet wird. Je mehr Quantile zur Schätzung vonverwendet werden, desto genauer wird diese allerdings. Läuft die Anzahl gegen den Stichprobenumfang n, erhält man auch für den Erwartungswert des Mittelwerts der Schätzung auf Basis der Quantile ε als Resultat. Somit ist der „Quantils-Bias-Schätzer“ asymptotisch erwartungstreu.
Lohnverteilung in Haushaltsdatensätzen
Die Schätzfunktion für die Verzerrung ist nun aus allen (asymptotisch) erwartungstreuen Schätzfunktionen so zu bestimmen, dass ihre Varianz höchstens so groß ist wie die der übrigen infrage kommenden Schätzfunktionen. Sie wird dann als effizienteste oder wirksamste Schätzfunktion bezeichnet.
3.3. Lohnverteilung
Die Bestimmung der wahren Lohnverteilung erfolgt durch bivariate Regression, wobei y die abhängige und x und ε die unabhängigen Variablen sind. Formal dargestellt ergibt sich also
Abbildung in dieser Leseprobe nicht enthalten
Bei Unterstellung eines linearen Zusammenhangs lässt sich das umformen zu
Abbildung in dieser Leseprobe nicht enthalten
wobei bezüglich Uy die zuvor für Uε gemachten Annahmen auch zutreffend seien. Auswahl der Schätzfunktion und das Schätzen der Parameter können ebenfalls wie im letzten Abschnitt beschrieben durchgeführt werden.
3.4. Anwendung
Wie in Kapitel 3.1. geschildert ist die Vergleichbarkeit der Daten eine zentrale Voraussetzung zur Bestimmung einer tatsächlichen Lohnverteilung. Rund um die bekannten Quantile der GLS und des EHP wurden daher 2 Lohnverteilun- gen für das Jahr 1995 erstellt19, die in allen bekannten Werten20 mit den Origi- naldaten (EHP mit Imputation) übereinstimmen. Für die Verzerrung ergibt sich dabei ein Erwartungswert von -54, wobei im Allgemeinen [Abbildung in dieser Leseprobe nicht enthalten] nicht gilt, d.h. der systematische Fehler ist nicht unabhängig vom angegebenen Einkom- men.21 Unter diesen Voraussetzungen wurde nach der wirksamsten Schätz- funktion gesucht. Dies geschah mittels der SPSS-Kurvenanpassung und lieferte die höchste Güte für eine kubische Funktion [Abbildung in dieser Leseprobe nicht enthalten]:
Abbildung in dieser Leseprobe nicht enthalten
Lohnverteilung in Haushaltsdatensätzen
Das Streudiagramm der Abbildung 3 vergleicht beide Schätzfunktionen gra- phisch und zeigt die leicht bessere Anpassung durch die kubische Funktion auf. Ausgehend von der geschätzten Verzerrung kann nun zunächst für das Jahr 1995 zur Kontrolle die Schätzung der Lohnverteilung durchgeführt werden um sie mit dem Ergebnis der GLS vergleichen zu können. Die Güte für eine lineare Regression beträgt[Abbildung in dieser Leseprobe nicht enthalten], wobei sich die Regressionskoeffizienten als [Abbildung in dieser Leseprobe nicht enthalten] und [Abbildung in dieser Leseprobe nicht enthalten] ergeben. Der graphische Vergleich der Kurven zeigt, dass die geschätzte Einkommensverteilung mit der tatsächlichen in fast allen Bereichen deckungsgleich ist, während die Verteilung des EHP im Bereich bis etwa 4.800 DM über den beiden anderen Kurven verläuft und diese dann schneidet22. Mit den Quantilen des EHP 1996 kann dann die wahre Lohnvertei- lung geschätzt werden.
An dieser Stelle sei nochmals betont, dass die Ergebnisse des EHP ohne ge- wisse Anpassungen, wie in Kapitel 3.1. beschrieben, nicht verwendet werden können. Daher wurden die Ergebnisse für 1996 wie folgt konstruiert: Die unte- ren 25% der Löhne stie- gen gemäß den Anga- ben um 4%, der mittlere Lohnbereich stieg um 3% und das obere Vier- tel der Löhne stieg um 6%. Wiederum liegt die wahre Lohnverteilung zunächst deutlich unter jener der Angaben der Fehler kubisch linear Panel-Teilnehmer um später oberhalb zu ver-
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3: Streudiagramm und Vergleich von kubischer und linearer Schätzung
laufen. Betrachtet man jedoch die Regressions- koeffizienten genauer, braucht das nicht näher erläutert zu werden.
Es ist leicht erkennbar, dass die geschätzte Verteilung des Jahres 1995 eine gute Schätzung der wahren Verteilung auf Basis der angegebenen Werte liefert, für die Qualität der Schätzung der Verteilung für 1996 und spätere Jahre, sei aber nochmals daran erinnert, dass eine perfekte Korrelation der Verzerrung über die Zeit eine der Modellannahmen darstellt.
4. Nichtparametrische Verfahren
4.1. Anpassungstest
Überprüft man die empirische Verteilung der GLS 1996 für 1995 hinsichtlich der Approximierbarkeit durch andere linkssteile parametrische Verteilungen, so kommt man zu dem Ergebnis, dass die Hypothese - das Einkommen sei z.B. lognormal verteilt - hochsignifikant abgelehnt werden muss.23 Grundsätzlich kommen dafür sowohl der Chi-Quadrat- als auch der Kolmogorov-Smirnov- Anpassungstest in Frage. Aufgrund der in Klassen vorliegenden Ergebnisse der GLS wurde hier die erstere Variante gewählt.
Zur Durchführung dieses Tests wurde die Annahme getroffen, dass das maxi- male Monatseinkommen 25.000 DM betrug24 und die 675.835 Personen der Klasse „über 8.000 DM“ wurden entgegen der Annahme der Gleichverteilung in dieser Klasse zu je einem Drittel auf die Klassen „8.000 -12.000 DM“, „12.000 - 18.000 DM“ und „18.000 - 25.000 DM“ aufgeteilt um den für die vorhergehenden Klassen erkennbaren Trend abnehmender Personenanzahlen pro Einkommensklasse gerecht zu werden. Über die willkürliche Wahl dieser Klassen lässt sich natürlich streiten, betrachtet man jedoch, dass die Summe der Chi² bei der Lognormal-Verteilung ohne die 3 letzten Klassen bereits fast 900.000 beträgt, so lässt sich ein entscheidender Einfluss auf die Ablehnbarkeit der Nullhypothese definitiv verneinen.
Zur Durchführung des Anpassungstests wurden die Originalergebnisse der GLS verwendet25, die Testergebnisse sind im Anhang ausführlich dargestellt.
4.2. Nichtparametrische Dichteschätzung
4.2.1. Einführung
In Kapitel 2.1 wurde bereits erläutert, dass die empirische Verteilungsfunktion FGLS eine sehr gute Schätzung für die tatsächliche Einkommensverteilung F liefert. In Kapitel 4.1 wurde gezeigt, dass diese aber durch keine parametrische Funktion approximierbar ist. Dieses Manko kann nun durch die nichtparametri- sche Dichteschätzung überwunden werden. Sie wird überwiegend lokal durch- geführt und sucht jeweils eine gute Annäherung für den Wert f(x) der Dichte f an der Stelle x.
Der älteste und wohl bekannteste nichtparametrische Dichteschätzer ist das Histogramm. Es weist gegenüber modernen Schätzern, wie dem Kerndichteschätzer, jedoch entscheidende Nachteile auf: Obwohl die zu schätzende Dichte i.d.R. stetig ist, wird eine unstetige „Treppenfunktion“ erzeugt, deren Sprungstellen und Detailverlauf von der willkürlichen Klasseneinteilung (die noch dazu zu Informationsverlust führt) abhängen.26
4.2.2. Univariate Kerndichteschätzung
4.2.2.1. Vom Histogramm zur Kerndichteschätzung
Sei [Abbildung in dieser Leseprobe nicht enthalten] eine Zufallsvariable mit der Stichprobenrealisation [Abbildung in dieser Leseprobe nicht enthalten]. Die Beobachtungen seien unabhängig und identisch verteilt (i.i.d.). Gesucht ist die Verteilungsfunktion [Abbildung in dieser Leseprobe nicht enthalten] mit der Dichte [Abbildung in dieser Leseprobe nicht enthalten]. Rosenblatt27 begründete 1956 eine neue Klasse nichtparametrischer Dichteschätzer, die sogenannten Kern- schätzer der Form
Abbildung in dieser Leseprobe nicht enthalten
wobei K den Eigenschaften einer gewöhnlichen Dichtefunktion genügen soll,
Abbildung in dieser Leseprobe nicht enthalten
d.h. es gilt [Abbildung in dieser Leseprobe nicht enthalten] für alle t und [Abbildung in dieser Leseprobe nicht enthalten]. Der Parameter h bezeichnet die
Abbildung in dieser Leseprobe nicht enthalten
Bandbreite und wird - wie beim Histogramm die Klassengröße - vom Anwender mehr oder weniger willkürlich festgelegt. Der Schätzer [Abbildung in dieser Leseprobe nicht enthalten] ist erwartungstreu für f(x).
[...]
* Unterschiedliche Verwendung von t in Kapiteln 3 und 4
2 eine detaillierte Beschreibung findet sich z.B. bei Krug et al. (2001, S. 362ff.) 1
3 Der Begriff „Einkommen“ wird in dieser Arbeit als Einkommen aus unselbstständiger Arbeit interpretiert, andere Einkommensarten wie z.B. Einkommen aus selbstständiger Arbeit oder Einkommen aus Kapitalerträgen fallen nicht darunter.
4 vgl. Jacobebbinghaus (2002, S. 210)
5 vgl. Krug et al. (2001, S. 365)
6 Bechtold und Meyer (1996, S. 301)
7 vgl. Hujer et al. (1997, S. 6)
8 vgl. Jacobebbinghaus (2002, Kap. 1.3 und 1.4)
9 eine Übersicht dazu bietet Krug et al. (2001, Kap. 8.1.1
10 Biewen (2001, S. 424)
11 Strecker (1963, S. 133)
12 vgl. Rodgers et al. (1993, S. 1213f.)
13 vgl. Biewen (2001, S. 417)
14 Arbeiter, Angestellter oder Beamter
15 Zur Messfehlermodellierung allgemein siehe Fuller (1987)
16 vgl. Rodgers et al. (1993, S. 1215)
17 vgl. auch Strecker (1963, S. 138)
18 vgl. dazu z.B. Greene (2003)
19 die verwendeten Verteilungen und die Ergebnisse sind ausführlich im Anhang dargestellt.
20 Mittelwert, verschiedene Quantile, vgl. Jacobebbinghaus (2002, S. 215)
21 Signifikanzniveau 99%, siehe Anhang
22 Da der graphische Vergleich nur bei entsprechender Abbildungsgröße Unterschiede erken- nen lässt sind sowohl der Vergleich des Jahrs 1995 als auch der für 1996 im Anhang beige- fügt.
23 Der durchgeführte Test ist im Anhang dargestellt.
24 vgl. Jacobebbinghaus (2002, S. 215)
25 vgl. Kaukewitsch (1998, S. 47)
26 vgl. Hafner (2001, S.75)
27 vgl. Rosenblatt (1956)
- Arbeit zitieren
- Oliver Heinrichs (Autor:in), 2004, Lohnverteilung in Haushaltsdatensätzen: Schätzung der wahren Lohnverteilung auf Basis verzerrter Daten, Anwendung der Kerndichteschätzung, München, GRIN Verlag, https://www.grin.com/document/33791
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.