Inhaltsverzeichnis
1. Einleitung
1.1 Inhalt und Struktur der Seminararbeit
1.2 Nichtparametrische Methoden in der Statistik
1.3 Die Bedeutung der nichtparametrischen Dichteschätzung
2. Histogramme
2.1 Konstruktion und Herleitung
2.2 Eigenschaften von Histogrammen
2.3 WARPing
2.4 Vom Histogramm zum Kerndichteschätzer
3. Kerndichteschätzer
3.1 Konstruktion
3.2 Arten von Kernfunktionen
3.3 Einfluss der Bandbreite
3.4 Verfahren zur Bandbreitenwahl
3.4.1 Fehlermaße für die Dichteschätzung
3.4.2 Einfache Verfahren
3.4.3 Kreuzvalidierung
3.4.4 Andere Methoden
3.4.5 Beurteilung der Verfahren
3.5 Variable Kerndichteschätzer
4. Andere Verfahren zur Dichteschätzung
5. Anwendungen und Ausblick
Literaturverzeichnis
Abbildungsverzeichnis
1. Einleitung
1.1 Inhalt und Struktur dieser Arbeit
Diese Arbeit hat zum Ziel einem Leser mit Grundkenntnissen der Statistik einen Überblick über die wichtigsten Methoden der nichtparametrischen Dichteschätzung zu geben. Es werden verschiedene Glättungsverfahren für die Schätzung von Dichtefunktionen erläutert. Dabei wird vor allem auf eine klare, übersichtliche und verständnisfördernde Darstellung Wert gelegt. Es wird versucht die Verwendung von mathematischen Formeln auf das Nötigste zu begrenzen. Der Schwerpunkt dieser Arbeit liegt auf Histogrammschätzern und Kerndichteschätzern und die damit verbundene Problematik der Bandbreitenwahl. Andere Verfahren der Dichteschätzung sowie Anwendungen werden nur am Rande behandelt. Es wird nicht auf die Dichteschätzung im mehrdimensionalen Bereich eingegangen.
In der Einleitung wird zuerst eine Abgrenzung von parametrischen und nichtparametrischen Methoden in der Statistik vorgenommen und deren Vorund Nachteile diskutiert. Dann wird auf die Bedeutung der nichtparametrischen Dichteschätzung im Speziellen eingegangen. Im zweiten Kapitel wird das Histogramm als einfachste Form der Dichteschätzung behandelt. Es wird die Herleitung und Konstruktion des Histogramms beschrieben sowie der Einfluss der zwei Parameter Ursprung und Klassenbreite erläutert. Anschließend wird über eine Erweiterung des Histogramms zu den Kerndichteschätzern im dritten Kapitel übergeleitet. Dieses befasst sich neben der Konstruktion von Kerndichteschätzern mit den Einflüssen der Kernfunktion sowie der Bandbreite. Das Hauptaugenmerk wird dann auf die Wahl der Bandbreite gelegt. Dazu werden geeignete Optimalitätskriterien diskutiert und im Anschluss gängige Verfahren der Bandbreitenwahl erläutert. Es wird auch noch kurz auf Kerndichteschätzer mit variabler Bandbreite eingegangen. Im vierten Kapitel werden andere Verfahren der Kerndichteschätzung angeschnitten, die aber nicht ausführlich behandelt werden. Kapitel fünf gibt noch einmal einen Überblick und Ausblick über mögliche Anwendungen der Dichteschätzung.
1.2 Nichtparametrische Methoden in der Statistik
Eines der Grundprobleme der inferentiellen Statistik ist die Bestimmung der Verteilung einer gegebenen Zufallsvariable. Empirisch werden zu diesem Zweck in der Regel parametrische Modelle benutzt, in welchen die Verteilung der Zufallsvariable durch eine endlich-dimensionale Menge numerischer Parameter ausgedrückt wird. Dabei wird gefordert, dass diese Parametrisierung stetig und differenzierbar sei. Die Unterstellung einer Zufallsverteilung auf diese Weise hat den Vorteil der einfachen Berechnung und Interpretierbarkeit der Parameter.
Problematisch ist allerdings, dass auch schon geringe Verletzungen der Annahme der Verteilung die Aussagekräftigkeit der Modelle einschränken können. Dies kann insbesondere bei Anwendungen zu großen Problemen führen.
Nichtparametrische Modelle hingegen treffen keine Annahmen über die Verteilungen von Daten. Sie gehen von den Daten an sich aus und lassen diese für sich selbst sprechen. Dadurch werden die Modelle flexibler und eine Misspezifikation des Modells wird vermieden. Der nichtparametrische Ansatz eignet sich deshalb auch besonders für Ökonomische Modelle, in denen Verteilungen normalerweise nicht zwingend festgelegt sind.
1.3 Die Bedeutung der nichtparametrischen Dichteschätzung
Im folgenden wird davon ausgegangen, dass eine Zufallsstichprobe X 1, ..., X n aus einer stetigen Verteilung X gegeben sei, deren unbekannte Dichte ¦ geschätzt werden soll. Das Ziel der Dichteschätzung ist es hierbei die Struktur der Daten wie Modalität, Symmetrie oder Schiefe zu beurteilen, als Grundlage für die Formulierung von parametrischen Modellen zu dienen oder aber die Anwendung in komplexeren statistischen Verfahren wie der Regression, der Diskriminanzanalyse oder der Clusteranalyse auf die in Kapitel 5 noch kurz eingegangen wird (vgl. Thadewald, 1998, S. III).
2. Histogramme
2.1 Konstruktion und Herleitung
Der einfachste und älteste Dichteschätzer ist das Histogramm. Nach Bohley (1991, S. 90) ist „Ein Histogramm (ist) die graphische Darstellung einer nach einem quantitativ-stetigen Merkmal gegliederten Tabelle“. Thadewald (1998, S.1) definiert das Histogramm als „die Darstellung der Häufigkeiten klassierter Daten einer stetigen Zufallsvariablen.“ Die Idee der Histogrammdarstellung ist die Zerlegung des Variationsintervalls [X min , ... , X max ] der Daten X = (X 1 , ... , X n ) in k disjunkte, aneinander angrenzende Teilintervalle, auch Klassen oder Bins genannt. Die Daten werden also diskretisiert. Es wird im folgenden der Einfachheit halber davon ausgegangen dass diese Klassen jeweils die selbe Klassenbreite (Binweite) h besitzen. Formal kann man das Histogramm am Dichteschätzer folgendermaßen schreiben:
Abbildung in dieser Leseprobe nicht enthalten
Hierbei ist I i(x) eine Indikatorfunktion, die den Wert 1 annimmt, wenn x in der i - ten Klasse liegt und sonst den Wert 0.
Grafisch wird nichts anderes gemacht als für jede Beobachtung ein Block mit der Fläche 1/n und der Breite h auf der Klassenmitte gestapelt, in der die Beobachtung fällt (vgl. Abbildung 1). Die Kreuze an der Abszisse der Schaubilder in Abbildung 1 stellen die Beobachtungen dar. Die Fläche der Rechtecke der einzelnen Klassen, die sich als die Summe der Flächen der übereinandergestapelten Blöcke ergeben, repräsentieren dann die Klassenhäufigkeit (vgl. Schaich, 1990, S.17).
Abbildung in dieser Leseprobe nicht enthalten
2.2 Eigenschaften von Histogrammen
Histogramme hängen von der Wahl zweier Parameter ab: Der Klassenbreite h und dem Ursprung x 0. Je kleiner die Klassenbreite gewählt wird umso größer ist der Einfluss der einzelnen Beobachtung auf die Glätte der geschätzten Dichtefunktion (vgl. Abbildung 2).
Häufig gestellte Fragen
Was ist das Ziel dieser Arbeit?
Diese Arbeit zielt darauf ab, Lesern mit Grundkenntnissen der Statistik einen Überblick über die wichtigsten Methoden der nichtparametrischen Dichteschätzung zu geben. Der Fokus liegt auf Histogrammschätzern und Kerndichteschätzern, einschließlich der damit verbundenen Problematik der Bandbreitenwahl.
Was sind nichtparametrische Methoden in der Statistik?
Nichtparametrische Modelle treffen keine Annahmen über die Verteilungen von Daten. Sie basieren direkt auf den Daten selbst, was sie flexibler macht und das Risiko einer Fehlerspezifikation des Modells reduziert. Dies macht sie besonders geeignet für ökonomische Modelle, in denen Verteilungen nicht zwingend festgelegt sind.
Warum ist nichtparametrische Dichteschätzung wichtig?
Die Dichteschätzung wird verwendet, um die Struktur der Daten zu beurteilen (Modalität, Symmetrie, Schiefe), als Grundlage für die Formulierung parametrischer Modelle zu dienen oder in komplexeren statistischen Verfahren wie Regression, Diskriminanzanalyse oder Clusteranalyse eingesetzt zu werden.
Was ist ein Histogramm und wie wird es konstruiert?
Ein Histogramm ist der einfachste Dichteschätzer und stellt die Häufigkeiten klassifizierter Daten einer stetigen Zufallsvariablen dar. Es wird konstruiert, indem das Variationsintervall der Daten in disjunkte Teilintervalle (Klassen oder Bins) zerlegt wird. Die Höhe jedes Rechtecks entspricht der Häufigkeit der Datenpunkte, die in die jeweilige Klasse fallen.
Von welchen Parametern hängt ein Histogramm ab?
Histogramme hängen von der Wahl der Klassenbreite (h) und dem Ursprung (x0) ab. Die Klassenbreite beeinflusst die Glätte der geschätzten Dichtefunktion.
Was ist ein Kerndichteschätzer?
Kerndichteschätzer sind eine Weiterentwicklung von Histogrammen und basieren auf Kernfunktionen und einer Bandbreite, um die Dichte zu schätzen. Sie bieten eine glattere Schätzung als Histogramme.
Welche Rolle spielt die Bandbreite bei Kerndichteschätzern?
Die Bandbreite (auch Glättungsparameter genannt) ist entscheidend für die Qualität der Kerndichteschätzung. Eine zu kleine Bandbreite führt zu einer unregelmäßigen Schätzung, während eine zu große Bandbreite die Schätzung zu stark glättet und wichtige Details verbergen kann. Die Wahl der optimalen Bandbreite ist daher ein zentrales Problem bei der Dichteschätzung.
Welche Verfahren gibt es zur Bandbreitenwahl?
Es gibt verschiedene Verfahren zur Bandbreitenwahl, darunter einfache Faustregeln, Kreuzvalidierung und andere Methoden. Jedes Verfahren hat seine Vor- und Nachteile, und die Wahl des besten Verfahrens hängt von den spezifischen Daten und dem Ziel der Analyse ab.
Werden auch andere Verfahren zur Dichteschätzung behandelt?
Neben Histogrammen und Kerndichteschätzern werden auch andere Verfahren der Dichteschätzung kurz angeschnitten, aber nicht ausführlich behandelt.
Welche Anwendungen für die Dichteschätzung gibt es?
Die Dichteschätzung kann in verschiedenen Bereichen angewendet werden, darunter die Beurteilung der Datenstruktur, die Formulierung parametrischer Modelle und die Anwendung in komplexeren statistischen Verfahren wie Regression, Diskriminanzanalyse und Clusteranalyse.
- Citation du texte
- Steffen Kohler (Auteur), 2001, Nichtparametrische Dichteschätzung, Munich, GRIN Verlag, https://www.grin.com/document/105683