Der erste Teil dieser Arbeit beschäftigt sich mit den Modellannahmen der Kleinst-Quadrate-Schätzung. Multikollinearität als Annahmeverletzung sowie deren Diagnosemöglichkeiten und Konsequenzen für das Schätzergebnis werden untersucht. Das Ridge-Schätzverfahren bietet Möglichkeiten, die durch Multikollinearität auftretenden Nachteile zu vermindern. Verschiedene Ridge-Verfahren werden vorgestellt. Danach werden mittels der Software R verschiedene Daten mit künstlicher Multikollinearität simuliert. Unter dreistuger Variation fünf verschiedener Modellparameter werden die Ridge-Schätzer auf ihre Güte untersucht. Der beste Ridge-Schätzer wird ermittelt. Im letzten Teil der Arbeit wird der optimale Komplexitätsparameter berechnet. Ein unerwartetes Untersuchungsergebnis ist der Nachweis der Existenz negativer optimaler Komplexitätsparameter bei der Ridge-Schätzung in R.
Inhaltsverzeichnis
1. Einführung
2. Theoretische Grundlagen
2.1. Modellannahmen
2.2. Multikollinearität
2.2.1. Arten der Multikollinearität
2.2.2. Diagnose
2.3. Ridge-Schätzung
2.4. Ridge-Schätzer
2.4.1. Subjektive Schätzer
2.4.2. Objektive Schätzer
3. Simulation
3.1. Modell
3.2. Durchführung
3.2.1. Variation der Stichprobengröfie
3.2.2. Variation der Variablenanzahl
3.2.3. Variation der Korrelationsstärke
3.2.4. Variation des Korrelationsfaktors
3.2.5. Variation der wahren Parameter
3.3. Auswertung
4. Der optimale Komplexitätsparameter
4.1. Durchführung
4.1.1. Variation der Stichprobengröfie
4.1.2. Variation der Variablenanzahl
4.1.3. Variation der Korrelationsstärke
4.1.4. Variation des Korrelationsfaktors
4.1.5. Variation der wahren Parameter
4.2. Auswertung
5. Zusammenfassung
A. R-Code
Abstract
Der erste Teil dieser Arbeit beschäftigt sich mit den Modellannahmen der Kleinst- Quadrate-Schätzung. Multikollinearität als Annahmeverletzung sowie deren Diagno- semögiiehkeiten und Konsequenzen fiir das Schätzergebnis werden untersucht. Das Ridge-Schätzverfahren bietet Möglichkeiten, die durch Multikollinearität auftretenden Nachteile zu vermindern. Verschiedene Ridge-Verfahren werden vorgestellt. Danach werden mittels der Software R verschiedene Daten mit künstlicher Multikollinearität simuliert. Unter dreistufiger Variation fünf verschiedener Modellparameter werden die Ridge- Schätzer auf ihre Güte untersucht. Der beste Ridge-Schätzer wird ermittelt. Im letzten Teil der Arbeit wird der optimale Komplexitätsparameter berechnet. Ein unerwartetes Untersuchungsergebnis ist der Nachweis der Existenz negativer optimaler Komplexitätsparameter bei der Ridge-Schätzung in R
Abbildungsverzeichnis
3.1. Datengeneration für n = 20, p = 2 und ? = 5
3.2. Exemplarische Verteilung der Ridge-Schätzer
3.3. Verlauf der GR über alle Parametervariationen
3.4. Kumuliertes Gütemaß SGR
4.1. Mittlerer quadratischer Fehler einer Realisation in Abhängigkeit von ? . .
5.1. Schätzergebnisse mit kopt
Tablellenverzeichis
3.1. Exemplarische Auswertung der Beispieldaten aus Kapitel 3.1
3.2. Datengeneration unter Variation der Stichprobengröfie
3.3. Ergebnisse unter Variation der Stichprobengröfie
3.4. Datengeneration unter Variation der Variablenanzahl
3.5. Ergebnisse unter Variation der Variablenanzahl
3.6. Datengeneration unter Variation der Korrelationsstärke
3.7. Ergebnisse unter Variation der Korrelationsstärke
3.8. Datengeneration unter Variation des Korrelationsfaktors
3.9. Ergebnisse unter Variation der Korrelationsstärke
3.10. Datengeneration unter Variation des Korrelationsfaktors
3.11. Ergebnisse unter Variation der Korrelationsstärke
3.12. Güteauswertung und -ranking der untersuchten Schätzverfahren
4.1. Verteilung der optimalen Komplexitätsparameter unter Variation der Stichprobengröfie
4.2. Verteilung der optimalen Komplexitätsparameter unter Variation der Variablenanzahl
4.3. Verteilung der optimalen Komplexitätsparameter unter Variation der Korrelationsstärke
4.4. Verteilung der optimalen Komplexitätsparameter unter Variation des Komplexitätsparameters
4.5. Verteilung der optimalen Komplexitätsparameter unter Variation der wahren Parameter
1. Einführung
Dem Problem der Multikollinearität kann mit unterschiedlichen Verfahren begegnet werden. Eines davon ist die verbesserte Schätzung der Parameter mittels der Ridge- Schätzung. Die Idee dabei ist. die Kleinst-Quadrate-Schätzung zu stabilisieren, indem die Hauptdiagonale stärker gewichtet wird. Fiir diese Gewichtung wird der Komplexitätsparameter eingefiihrt. Neben der subjektiven Ridge-Spur, bei der aus dem stabilen Bereich fiir unterschiedliche Komplexitätsparameter der Ridge-Schätzer anhand einer Grafik gewählt wird, existieren auch objektive Verfahren zur Schätzung jenes Parameters. Erste Ziele dieser Arbeit sind. Modellannahmen zu formulieren, um danach die verschiedenen Methoden fiir die Wahl des optimalen Komplexitätsparameters des Ridge-Schätzers vorzustellen.
2. Theoretische Grundlagen
Diese Arbeit setzt sich mit einem Spezialgebiet der Ökonometrie auseinander. Ökonometrische Grundkenntnisse, einschließlich Kenntnisse der Methode der kleinsten Quadrate, können bei Bedarf in geeigneter Literatur nachgeschlagen werden1.
2.1. Modellannahmen
Ausgehend von folgendem multiplen linearen Regressionsmodell
Abbildung in dieser Leseprobe nicht enthalten
in welchem K die Anzahl der Parameter, T die Anzahl der Beobachtungen darstellt und welches auch in kompakter Matrixschreibweise ausgedrückt werden kann:
Abbildung in dieser Leseprobe nicht enthalten
ergibt sich nach der Methode der kleinsten Quadrate der Schätzer ß durch
Abbildung in dieser Leseprobe nicht enthalten
dessen Eigenschaften aus spezifischen Bedingungen resultieren, die nach funktionaler Spezifikation, Störgrößenspezifikation und Eigenschaften der exogenen Variablen durch die A-, B- und C-Annahmen kategorisiert werden2:
Annahme Al In Gleichung 2.2 fehlen keine relevanten exogenen Variablen und die darin benutzten exogenen Variablen sind nicht irrelevant.
Annahme A2 Der wahre Zusammenhang zwischen X und y ist linear.
Annahme A3 Die Parameter ß sind für alle T Beobachtungen (xt,yt) konstant.
Annahme Bl (Unverzerrt heit) Die Störgröße ut hat für alle Beobacht ungen t einen Erwartungswert von ü:
Abbildung in dieser Leseprobe nicht enthalten
für t = 1, 2,..., T. Daraus folgt: E[u} = 0 und
Abbildung in dieser Leseprobe nicht enthalten
mit der Varianz-Kovarianz-Matrix
Abbildung in dieser Leseprobe nicht enthalten
Annahme B2 (Homoskedastizität) Die Störgröße ut hat für alle Beobacht ungen t eine konstante Varianz:
Abbildung in dieser Leseprobe nicht enthalten
für t = 1, 2,..., T.
Annahme B3 (Freiheit von Autokorrelation) Die Störgröße ist nicht korreliert:
Abbildung in dieser Leseprobe nicht enthalten
für alle t = s sowie t,s = 1,...,T. Wenn B2 und B3 gilt, dann ergibt sich die
Annahme B4 (Normalverteilung) Die Störgröße ut ist normalverteilt:
Abbildung in dieser Leseprobe nicht enthalten
Die vier B-Annahmen können wie folgt zusammengefasst werden:
Abbildung in dieser Leseprobe nicht enthalten
Die Residuen sind also unabhängig normalverteilt / multivariat normalverteilt3 um den Erwartungswert 0 mit der konstanten Varianz s4.
Annahme CI (Exogene Variablen fix) Die exogenen Variablen x1t, x2t,..., xKt sind keine Zufallsvariablen, sondern können wie in einem Experiment kontrolliert werden. Das heißt: Keines der Elemente der[Abbildung in dieser Leseprobe nicht enthalten]ist eine Zufallsvariable.
Annahme C2 (Freiheit von perfekter Multikollinearität) Es existieren keine Parameterwerte[Abbildung in dieser Leseprobe nicht enthalten](wobei mindeste ns ein 7k = 0), sodass zwischen den exogenen Variablen [Abbildung in dieser Leseprobe nicht enthalten] die folgende lineare Beziehung gilt:
Abbildung in dieser Leseprobe nicht enthalten
beziehungsweise
Abbildung in dieser Leseprobe nicht enthalten
2.2. Multikollinearität
Treffen alle Annahmen zu, erhält man aus 2.3 den besten linear unverzerrten Schätzer ß. Die BLUE Eigenschaft5 impliziert, dass die aus wiederholten Stichproben gewonnenen Schätzer ß im Mittel den realen Wert ß treffen würden. Der Schätzer aus der Klasse der unverzerrten Schätzer mit der kleinsten Streuung var(ß) heißt effizient6.
Die Verletzung der Annahme C2 nennt man Kollinearität, wenn eine Spalte der Matrix X als Vielfaches oder Teil einer anderen Spalte ausgedrückt werden kann. Multikollinearität weist auf eine Linearkombination mehrerer Spalten hin. In dieser Arbeit wird der Begriff Kollinearität als im Begriff Multikollinearität enthalten verwendet und im Folgenden nicht gesondert benutzt.
2.2.1. Arten der Multikollinearität
Perfekte Multikollineariät
Abbildung in dieser Leseprobe nicht enthalten
Problematisch an dieser Form der Kollinearität oder Multikollinearität ist die Existenz mindestens einer perfekten linearen Abhängigkeit zwischen zwei oder mehreren Spalten: Mindestens eine Spalte von X ist als Linearkombination von anderen Spalten darstellbar7. In diesem Fall verliert die Matrix X'X ihren vollen Spaltenrang und ihre Inverse ist nicht definiert, was eine weitere Schätzung der Parameter unmöglich macht.
Imperfekte Multikollinearität
Abbildung in dieser Leseprobe nicht enthalten
Im Unterschied zur perfekten Multikollinearität treten hier nur nahezu lineare Abhängigkeiten auf. Diese beeinflussen den Rang zwar nicht aber relativ kleine Änderungen in X'X sorgen für relativ große Veränderungen in (X'X)-1. Dies führt aufgrund von
Abbildung in dieser Leseprobe nicht enthalten
zu großen Varianzen einiger KQ-Sehätzcr und damit übergroßen Konfidenzintervallen. Somit verschlechtert Multikollinearität die Qualität der KQ-Sehätzcr.
2.2.2. Diagnose
Da Multikollinearität in der Regel nicht auf den ersten Blick anhand der Matrix X erkennbar ist. sollten vor allem nicht-simulierte Daten auf Multikollinearität getestet werden'. Dazu eignen sich zum Beispiel folgende Indikatoren:
Die Korrelationsmatrix R: Ist X zentriert und auf Einheitslänge skaliert, ergibt sich die Korrelationsmatrix
Abbildung in dieser Leseprobe nicht enthalten
Während ein hoher Korrelationskoeffizient zwischen zwei erklärenden Variablen in der8
Tat auf ein mögliches Kollinearitätsproblem hinweist, kann die Abwesenheit hoher Korrelationskoeffizienten nicht als Beweis keines Problèmes betrachtet werden9. Wie oben gezeigt, kann eine Multikollincarität zwischen mehreren Variablen gleichzeitig auftreten und ist somit nicht garantiert durch diese Betrachtung der ersten Ebene erkennbar.
Die Konditionszahl misst die Sensitivität der Rcgrcssionssehätzcr zu kleinen Änderungen an den Daten10. Sie ist definiert als das Verhältnisses des größten zum kleinsten Eigenwert ? fe quadratischen Matrix X'X:
Abbildung in dieser Leseprobe nicht enthalten
Je näher die Konditionszahl an 1 ist, desto besser ist der Zustand im Hinblick auf Multikollincarität. Die Messung dieses Verhältnisses kann im Gegensatz zur Messung einer absoluten Kenngröße in Bewertungsgrenzen gefasst werden. Empirisch wurde gezeigt, dass schwache Abhängigkeiten mit Konditionszahlen bis lüü und moderate Abhängigkeiten mit Konditionszahlen von lüü bis lüüü verbunden sind11 12. Höhere Konditionszahlen weisen auf die Existenz starker Multikollincarität hin.
Die Korrelationsmatrix und die Konditionszahl sind beide in Kombination die Mittel der Wahl, wenn ohne großen Aufwand auf Multikollincarität untersucht werden soll.
Korrelationsmaße Bei Modellen mit zwei zu schätzenden Variablen stellt
Abbildung in dieser Leseprobe nicht enthalten
mit den Variationen
Abbildung in dieser Leseprobe nicht enthalten
ein geeignetes Maß für deren Abhängigkeit dar11. Je kleiner der Abstand zwischen R2-2
und 1 ist, desto stärker tritt die Korrelation auf. Bei mehr als 2 erklärenden Variablen können jedoch Abhängigkeiten zwischen mehr als zwei Variablen gleichzeitig auftreten. So könnte beispielsweise x1 sowohl von x2, als auch von x3 abhängen. Ist K = 4, sollten zunächst mittels der Hilfsregressionen
Abbildung in dieser Leseprobe nicht enthalten
die Bestimmtheitsmaße R2 = aiáMíchtoraataMan ^er Hilfsregressionen errechnet werden. Diese werden als die einfachen Korrelationsmaße R2^2, R\-3 uncl R2·? bezeichnet. Von Auer zeigt, dass die daraus gewonnenen Informationen nicht ausreichen, da sie zu relativ kleinen Korrelationsmaßen trotz perfekter Multikollinearität führen können. Es ist also notwendig, alle K Vektoren von X auf wechselseitige Abhängigkeiten zu untersuchen.
Abbildung in dieser Leseprobe nicht enthalten
Der Zustand K = 4 bedingt 6, der Zustand K = 5 bereits 22 Hilfsregressionen - eigentlich sind es 28, jedoch verringert sich die Anzahl durch Identitäten erster Ebene wie R|3 = R^2. Die benötigte Anzahl der Hilfsregressionen CHR kann man als Summe verschiedener Kombinationen ohne Zurücklegen ermitteln.
Definiert man als und a! als ? ft, ergibt sich CHR aus
Abbildung in dieser Leseprobe nicht enthalten
Die so cnstchcndcn Korrelationsmafie können als genaueste Analyse von Multikollinea- rität betrachtet werden. Um diesen Rechenaufwand zu vermeiden, existieren jedoch einfachere Alternativen.
Der Varianz-Inflations-Faktor ist definiert als13
Abbildung in dieser Leseprobe nicht enthalten
wobei R der quadratische multiple Korrelationskoeffizient zwischen xi und den anderen erklärenden Variablen ist. Der VIF beschreibt das Verhältnis der tatsächlichen Varianz zur Varianz, die aufträte, wenn xi mit den anderen x-i unkorreliert wäre, also mit einer idealen Situation. Ein hoher VIF impliziert ein R2 nahe 1 und deutet deshalb auf Kollinearität hin. Die Schwächen dieses Verfahrens, wie die der Korrelationmatrix R, liegen in der Unfähigkeit, zwischen verschiedenen koexistierenden fast perfekten Abhängigkeiten zu unterscheiden und im Fehlen einer verlässlichen Grenze, um zwischen hohen und niedrigen Werten des VIF zu differenzieren.
Theils Maß ist definiert als14:
Abbildung in dieser Leseprobe nicht enthalten
Wenn alle x unkorreliert sind, dann wird m = 0 sein, weil sich die inkrementeilen Beiträge (R2 — R— ) zu R2 addieren werden. In anderen F allen kann m sowohl positive als auch negative Werte annehmen.
Das Problem bei der Messung von Multikollincarität ist, dass sich die Interkorrelationen der Variablen mit einer Redefinition jener verändern.15 Darum sollte man Multikollincarität in jenem Modell messen, welches tatsächlich geschätzt werden soll.
2.3. Ridge-Schätzung
Aus vorstehenden Betrachtungen ist bekannt, dass der KQ-Schätzer ß = (X'X)-1X'y kein präziser Schätzer ist, wenn fast lineare Abhängigkeiten zwischen Spalten der Matrix X existieren16. Im Falle auftretender Kollinearität entstehen die Probleme durch das Verhalten der Inversen der Matrix X'X: Kleine Änderungen in der Matrix X'X resultieren in großen Änderungen in (X'X)-1. Dies führt zu großen (Co-)Varianzen, verbreitert die Konfidenzintervalle und reduziert so die Qualität der ? Q-Schätzung gegenüber einer solchen Schätzung in Abwesenheit von Multikollincarität.
Die Ridge-Schätzung versucht, den Einfluss von Multikollincarität zu verringern, indem sie die Hauptdiagonalelemente von X'X um den Wert des Komplexitätsparameters k erhöht und verzichtet auf das Kriterium der Unverzerrtheit zugunsten eines verbesserten Schätzergebnisses. In der Realität, das heißt in nicht simulierten Daten, sind die wahren Werte der ß-Parameter unbekannt. Folglich kann das optimale k nicht errechnet, sondern muss geschätzt werden.
2.4. Ridge-Schätzer
Wenn k nicht stochastisch ist, ergibt sich der Ridge-Schätzer
Abbildung in dieser Leseprobe nicht enthalten
als homogener linearer Schätzer mit
Abbildung in dieser Leseprobe nicht enthalten
und
Abbildung in dieser Leseprobe nicht enthalten
Nach Grofi17 kann man folgende Ridge-Schätzer unterscheiden:
2.4.1. Subjektive Schätzer
Die Ridge-Spur bildet alle K Elemente von ßk in Abhängigkeit von k ab. Der Betrachter entscheidet sich dann auf dieser Basis für ein k = ktr, unter welchem sich die Funktionen zu stabilisieren beginnen.
Abbildung in dieser Leseprobe nicht enthalten
Die Aussagekraft der Ridge-Spur hängt sowohl von der Erfahrung des Betrachters, als auch vom Intervall ks ab, in dem die Funktionen gezeigt werden. So könnte man bei größerem Intervall dazu verleitet werden, ein ktr > kopt zu wählen. Es existieren allerdings Vorschläge zur Anwendung verschiedener Skalen18. Als optimales k in obiger Grafik wurde später k,ypt = 0.9561 errechnet.
2.4.2. Objektive Schätzer
Schätzer nach Hoerl, Kennard und Baldwin schätzen wie folgt19:
Abbildung in dieser Leseprobe nicht enthalten
Seit der Originalvcröffcntlichung von Hoerl und Kennard im Jahre 1970 hat es eine große Anzahl von Veröffentlichungen anderer Autoren zu diesem Thema gegeben. [Hoc85] und [Vin78] bieten einen breiten Literaturiiberblick an.
Schätzer von Lawless und Wang: Es wird vom reparametrisierten Modell
Abbildung in dieser Leseprobe nicht enthalten
ausgegangen, welches der Bedingung Z'Z = IK genügt. In diesem Modell ist der zugehörige Schätzer kHKB gegeben durch
Abbildung in dieser Leseprobe nicht enthalten
Schätzer von Lindley und Smith: Dieser Schätzer unterscheidet sich von kLW durch den Faktor, mit dem k2/(ß'ß) multipliziert wird.
Abbildung in dieser Leseprobe nicht enthalten
Iterativer Schätzer von Hoerl und Kennard: Es wurde die Erfahrung gemacht, dass der Schätzer kHKB häufig auf einen zu kleinen Wert für k weist. Eine Möglichkeit, den Schätzer zu erhöhen, ist durch Iteration des Schätzprozesses gegeben.
Abbildung in dieser Leseprobe nicht enthalten
Die Iteration wird fortgesetzt, bis die Differenz zwischen kffKB und klHKB kleiner ist als eine bestimmte Grenze. Ebenso wie kHKB können auch die Schätzer kLW und kLs als Ausgangswerte fiir einen Iterationsprozess benutzt werden.
3. Simulation
Wie bereits vorbemerkt, ist das Ziel dieser Arbeit der Gütevergleich verschiedener Ridge- Schätzer. Dies soll mittels Simulationen auf Basis des Open-Source-Programms R geschehen20. In R wird die Programmiersprache S zur Lösung ökonometrischer Probleme genutzt. Im Folgenden werden die Schritte dieser Simulation erklärt. Der Quellcode der Simulation befindet sich im Anhang.
3.1. Modell
Zuerst werden die allgemeinen Modellparameter festgelegt. Um eine bessere Nachvollziehbarkeit des Quellcodes zu ermöglichen, werden ab jetzt an Stelle von T und K die Notationen n und p verwendet. Ausgangspunkt sind demnach «Beobachtungen von p Variablen eines Modells ohne absoluten Parameter.
Abbildung in dieser Leseprobe nicht enthalten
[...]
1 Siehe dazu [Gre03] oder [Guj03]
2 “siehe [AueOT] S. 140ff
3 Fiir eine genaue Definition der liier verwendeten Begriffe siehe [Jud88]
4 BLUE: Best Linear Unbiased Estimator
5 “siehe [Aue07] S. 71 - 76
6 (>sielie [Schli] S. 75
7 siehe [Jud88] S. 902ff
8 siehe [Bel80] S. 92f
9 siehe [Bel9lj S. 173
10 “'siehe [Bel80] S. 1041'
11 in Anlehnung an [Aue07], S. 4861'
12 siehe [Mad92] S. 274
13 siehe [TlieTl] S. 164-166
14 sielie weit.erlülirend [Mad92] S. 276-280
15 siehe [Gro03] S. 571'
16 siehe [Gro03] S. 123-128
17 siehe [Vin81] Abschnitt 7.2.5
18 sielie [Hoe75] S. 127f
19 Programm erhältlich auf http://cran.r-project.org/. siehe auch [Horli]
- Arbeit zitieren
- Hendrik Rausch (Autor:in), 2012, Die optimale Wahl des Komplexitätsparameters bei der Ridge-Schätzung, München, GRIN Verlag, https://www.grin.com/document/202749
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.