Page 1
Einleitung
Multivariate Verfahren besitzen eine große Relevanz auf vielen Anwendungsgebieten, sei es in Wirtschaft, Soziologie, Biologie o.ä..
Gemeinsamkeit aller Anwendungsgebiete ist es, dass man es mit umfangreichen und komplexen Datensätzen zu tun hat, welche unaufbereitet aufgrund dieser Tatsache eine präzise Bearbeitung oft unmöglich machen.
Ziel jeder multivariaten Analyse ist es nun, eben diese Daten qualitativ und quantitativ aufzubereiten, um so Informationen zur Entscheidungshilfe zu generieren oder komplexe Sachverhalte zu veranschaulichen.
Als Nachteil von multivariaten Verfahren kann allgemein ihre enorme Vielfalt angegeben werden, welche - exzessiv betrieben - leicht zu mehrdeutigen oder sogar widersprüchlichen Aussagen führen können und so den beabsichtigten Informationsgewinn genau ins Gegenteil verkehren. Des weiteren sind viele Verfahren auch mit modernster Computer- und Rechnertechnologie noch sehr aufwändig, weil insbesondere die Vorbereitung der Analysen mit sehr viel Sorgfalt betrieben werden muss. Dieser Punkt ist meiner Meinung nach zentral, denn nur wenn man weiß, was man eigentlich analysieren will und welche Daten dafür (zumindest theoretisch) relevant sein können, kann man zu einem befriedigenden Ergebnis kommen. Hält man diesen Grundsatz („Erst denken, dann analysieren“) nicht ein, kann es leicht zu verzerrten Ergebnissen kommen und theoretisch alles „beweisen“, was man gerne möchte. Eine jederzeit kritische Betrachtung von multivariaten Analyseergebnissen erscheint aus diesem Grund sinnvoll.
In der nachfolgenden Hausarbeit sollen die wichtigsten Standardverfahren der multivariaten Analyse auf knappen Raum vorgestellt werden. Dabei gehe ich zuerst auf die Datenmatrix und deren Maßzahlen ein, welche von zentraler Bedeutung sind und am Anfang jeder Analyse stehen. Danach beschäftige ich mich mit den Verfahren, die primär Zusammenhänge zwischen einzelnen Merkmalen oder Datenobjekten untersuchen (Regressions-, Korrelations-und Hauptkomponentenanalyse) und „last but not least“ mit jenen, die hauptsächlich Unterschiede betrachten (Varianz, Diskriminanz- und Clusteranalyse).
Die Datenmatrix und deren Maßzahlen
1.) Datenmatrix X
- man erzeugt eine Matrix mit m beobachteten Merkmalen und n Merkmalsträgern (d.h. eine n m- Matrix) i y
2.) Mittelwertvektor x (bzgl. der m Merkmale X 1 bis X m )
Page 2
i y { = i y i k x1 y {
mit x j = 1/n ∑ i x ij oder x = 1/n(1 n ’⋅X)
3.) (Varianz-)Kovarianzmatrix S
- gibt entlang ihrer Hauptdiagonale die Varianzen und abseits derselben die Kovarianzen der einzelnen Merkmale X 1 bis X m an ; sie ist quadratisch und H NW Lit Konz Log L
symmetrisch ( d.h. man erhält eine m m-Matrix) i y i y
4.) Abweichungsmatrix A
- es wird für jede Komponente der Datenmatrix X die absolute Abweichung vom Mittelwert bestimmt, d.h. es ist jeweils a ij = x ij - x j oder A = X - 1 n x’ (
Anmerkung : summiert man in A eine Spalte über die Zeilen, so ergibt sich 0 )
5.) Matrix der standardisierten Beobachtungswerte Z i k 1 1.121 1.154 1.091 y {
6.)Korrelationsmatrix R
- gibt die Korrelation zwischen den einzelnen Merkmalen an, d.h. man erhält eine quadratische und symmetrische m m-Matrix i y
1 .961 .865 .654
R = (1/n-1) Z’ Z k { .961 1 .970 .838
R =
.865 .970 1 .944 .654 .838 .944 1
7.) Distanzmaße
- Verfahren, welche primär Beziehungen zwischen Elementen untersuchen, benötigen ein Distanzmaß, um Unterschiede oder Ähnlichkeiten festzustellen
- man misst Distanzen zwischen den n Merkmalsträgern bzgl. ihrer m Merkmale und stellt diese dann in einer symmetrischen n n-Distanzmatrix D dar
- dabei gelten folgende Bedingungen : d ik ≥ 0 ; d ik = d ki ; d ii = 0 für i, k = 1,...,n ,
sowie die Beziehung : höhere Unähnlichkeit = größere Distanz
Page 3
a ) - allgemein bestimmt man die Distanz mit den sog. L r -Normen, bzw. mit der Mahalanobis-Distanz (durch Varianzen und Kovarianzen gewichtete euklidische Norm)
L r = [ ∑ j │x ij - x kj │ r ] 1/r für i, k = 1,...,n
L 2 -Norm (euklidische Distanz): d ik = √∑ j x ij - x kj 2
L 1 -Norm (City-Block-Distanz): d ik = ∑ j x ij - x kj L∞-Norm (Tschebyscheff-Distanz): d ik = max x ij - x kj
Mahalanobis-Distanz
1 - ⋅ ⋅ d ik = ) x -(x S )' x -(x für i, k = 1,...,n (k.) (i.) (k.) (i.)
b ) Beispiele i k 0 24 27 y { L2 = i k 0 12.7 14.0 y { Lunendl = i k 0 9 9 y { M - D = i k 0 2.00 2.00 y {
Regressionsanalyse
Die Regressionsanalyse stellt die wohl klassischste Anwendung für Verfahren dar, welche Zusammenhänge betrachten.
multiple lineare Regression
Ziel der multiplen linearen Regression ist es, eine lineare Beziehung der Form
Page 4
y = β 0 + β 1 x 1 + ... + β p x p + ε
zu finden, wobei y die abhängige Variable (Regressand) ist und x 1...p die unabhängigen Variablen (Regressoren), um so bei bekannten Regressoren x 1...p (z.B. aus einer Lernstichprobe) eine Punktschätzung für y zu geben. ε ist dabei eine nicht messbare Fehlervariable mit E(ε) = 0 und unbekannter Varianz.
Durch empirische Betrachtung von p Regressorvariablen an N Regressanden (wobei N > p+1) erhält man N Normalengleichungen der Form y n = β 0 + β 1 x n1 + ... + β p x np + ε n.
In Matrizenschreibweise sei nun
y =
Die erste Spalte von Y besteht deshalb aus dem 1 N -Vektor, um so später β 0 generieren zu können.
Gemäß der Methode der kleinsten Quadrate soll ein Schätzer für β so bestimmt werden, dass die Fehlervariable ε minimal wird.
Es soll also die Dabei ist
Leitet man nun nach β ab, erhält man -2 X’y + 2 X’Xβ.
Damit ein Minimum vorliegt, muss die erste Ableitung =! 0 gelten, also -2 X’y + 2 X’Xβ =! 0 (X’X)β = X’y und so β = (X’X) -1 X’y.
Bildet man die zweite Ableitung, so kann man zeigen , dass diese stets positiv definit ist, also tatsächlich ein Minimum vorliegt, sofern die Regressorenmatrix Y vollen Rang hat. Deshalb muss N ≥ p+1 sein, damit die maximale Zeilenanzahl zumindest gleich der maximalen Spaltenanzahl ist.
Man erhält nach dem Lösen der Matrizengleichung
den Lösungsvektor β
Es kann auch gezeigt werden, dass β nicht nur der beste KQ-Schätzer ist, sondern auch hinsichtlich seines Erwartungswertes unverzerrt und in seiner Varianz minimal ist, also die Eigenschaften eines „best linear unbiased estimators“ (BLUE) erfüllt.
Ex post kann man nun den realisierten Schätzfehler e aus der empirischen Stichprobe mit e = (e 1 , ... , e N )’ = y - y bestimmen und daraus die sog. Residuenquadratsumme Q e = Σ (e n ) 2 = e’e ermitteln.
Diesen Wert kann man als Gütemaß für die Qualität der Regression verwenden. Es ist gemäß des Streuungszerlegungssatzes der Regression die Gesamtstreuung G gleich der Summe der unerklärten Streuung U und der erklärten Streuung E, also Σ(y-y) 2 = Σ(y-y) 2 + Σ(y-y) 2 oder G = U + E = Q e + E. Dabei ist U minimal (s.o.) und E genau der Streuungsanteil, welcher durch die Regressionsfunktion erklärt wird. Insofern gilt das Bestimmtheitsmaß
Page 5
Ein Schätzer für die Varianz der Regressionsfunktion ist
gewährleistet ist, sollte N > p+1 gelten.
Im Allgemeinen wird es so sein, dass man versucht, für eine Regressionsanalyse möglichst viele Regressoren zu erheben, um alle wesentlichen beeinflussenden Merkmale zu betrachten. Dennoch ist es oft sinnvoll, nach erfolgter Regression nur einige der Regressoren zu selektieren, um so Unwirtschaftlichkeit oder Unhandlichkeit (z.B. bei graphischer Darstellung) zu vermeiden. Des weiteren kann man feststellen, dass bei erhöhter Regressorvariablenanzahl p die Residuenquadratsumme Q e zwar abnimmt, die Varianz der Regressionsfunktion jedoch zunimmt.
Eine Möglichkeit der Selektion ist die vollständige Suche nach der besten Regressorvariation, bei der alle 2
p
Möglichkeiten, die
β
1...p
anzuordnen (β
0
ist immer enthalten), betrachtet werden. Für jeden Ansatz wird dann x, Q
e
und
σ
2
berechnet. Bei gleicher Regressorenanzahl I = J
Bei unterschiedlicher Anzahl I ⊆ J
Eine andere Herangehensweise ist die der schrittweisen Suche, bei der mit der Regressionsfunktion y = Xβ 0 gestartet wird und dann y und Q e berechnet werden. Nun werden alle Regressoren β 1...p einzeln hinzugefügt und wiederum y und Q e berechnet. Man nimmt dann den Regressor in die Funktion auf, bei dem Q e am stärksten abnimmt. Diese Variante hat den Vorteil, dass sie sehr leicht nachzuvollziehen ist und man gegebenenfalls steuernd eingreifen kann. Zu fragen ist lediglich, wann diese schrittweise Suche abgebrochen werden soll, wobei eine intuitive Zufriedenheit mit den gewählten Regressoren durchaus als Kriterium herangezogen werden kann.
nicht-lineare Regression
Ein Nachteil der linearen Regression ist eben gerade ihre Beschränkung auf allein lineare Zusammenhänge zwischen Regressoren und Regressand. Häufig kann man aber feststellen, dass in der empirischen Forschung gerade nicht-lineare Zusammenhänge von Bedeutung sind.
Es gibt einige spezielle Verfahren zur KQ- Regressionsschätzung im nicht-linearen Fall (z.B. die Gauß-Newton-Methode als iterative Näherung), oft reicht es aber schon aus, die Gestalt der vermuteten Regressionsfunktion durch ein geeignetes Verfahren in eine lineare Funktion zu transformieren. Die Analysemethoden sind dann wie oben beschrieben Beispiele
Betrachtet man mehrere (q-) Regressanden, welche untereinander korreliert sind, so stellt die simultane Regression eine geeignete und mit weniger Aufwand verbundene Alternative zur einfachen multiplen Regression dar.
Es werden also q- Regressanden N-mal anhand der Regressorvariablen x 1...p beobachtet, so dass für jede beobachte Komponente eine lineare Beziehung
y nj = x n ’β (j) = β 0j + x n1 β 1j +...+ x np β jp + ε nj ; j = 1, ..., q und n = 1, ..., N
Page 6
gesucht wird. Des weiteren sei wieder für alle ε : E(εnj) = 0
In Matrizenschreibweise ist nun Y = XB + ε
mit Y =
Gemäß der KQ-Schätzung ist B =(Y’Y) -1 Y’X, da für die einzelnen Spalten von Y (d.h. y1, ..., yq) jeweils ein univariates Regressionsmodell y (j) = Xβ (j) + ε (j) gilt. Auch hier sind die weiteren Analysemethoden wie oben beschrieben.
Korrelationsanalyse
Während die Regression allgemeine Informationen zwischen Merkmalskomplexen als Punktschätzung lieferte, beschäftigt sich die Korrelationsanalyse detaillierter mit den Beziehungen zwischen Merkmalen. Sie kann insofern, insbesondere in Verbindung mit anderen Verfahren, zu einer genaueren Klärung von Abhängigkeiten zwischen zwei oder mehreren Merkmalen dienen.
Generell ist jedoch zu bemerken, dass die hier vorgestellten Analyseinstrumente jeweils nur den linearen Zusammenhang messen.
Einfachkorrelation
Mit Hilfe der Einfachkorrelation kann die Beziehung von zwei Merkmalen x, y durch den
Korrelationskoeffizienten r xy =
Bestimmtheitsmaß B = r 2
durch y erklärt wird (und umgekehrt).
Die Einfachkorrelationen kann man natürlich in der Korrelationsmatrix R ablesen, da R = (1/n-1)Z’Z = (1/n-1) dg(S) -1/2’ ⋅A’A⋅dg(S) -1/2 = dg(S) -1/2’ ⋅S⋅dg(S) -1/2 , was dem oben angegebenen Korrelationskoeffizienten der Form nach entspricht.
multiple Korrelation
Beobachtet man relativ viele Merkmale, so kann allein mit Hilfe des einfachen Korrelationskoeffizienten höchstens eine punktuelle Betrachtung zwischen den Merkmalen erreicht werden, keinesfalls aber eine klare Analyse von Abhängigkeiten.
Soll nun geprüft werden, welchen Einfluss die Merkmale y 1, ..., p gemeinsam auf ein Merkmal x haben, wird die Korrelation zwischen x und der Linearkombination α 1 y 1 + ... + α p y p betragsmäßig maximiert.
Ausgangspunkt dafür ist eine (n p+1)-Datenmatrix X (mit p < n), aus welcher die Korrelationsmatrix R gebildet wird. Dabei ist R vom Grundsatz aufgebaut, dass
Page 7
Wird nicht mehr die Korrelation zwischen einem Merkmal und einer Merkmalsgruppe betrachtet, sondern die zwischen zwei Merkmalsgruppen X (x 1, ..., p ) und Y (y 1, ..., q ) , so spricht man von kanonischer Korrelation.
Dabei sucht man analog der multiplen Korrelation nun die betragsmäßig größte Korrelation α 1 x 1 + ... + α p x p und β 1 y 1 + ... + β q y q. zwischen allen möglichen Linearkombinationen Hierbei soll gelten, dass p ≤ q und p + q < n.
Man bildet ausgehend von einer entsprechenden n m-Datenmatrix D (m = p + q) die unverzerrte Varianz-Kovarianzmatrix der Form
S =
Ist man an den genauen Schätzvektoren für α und β interessiert, so ergibt sich -1 α logischerweise als Eigenvektor zu λ G und β = S y ⋅S xy ’⋅α.
partielle Korrelation
Oft erhält man hohe Korrelationen zwischen zwei Merkmalen x und y allein deshalb, weil beide mit einem dritten Merkmal u korreliert sind (Scheinkorrelation). Es wird nun versucht die Merkmale x, y von u zu partialisieren, um so die evt. Scheinkorrelation zu beenden. Die bereits in der Einleitung angesprochene kritische Einstellung gegenüber multivariaten Verfahren manifestiert sich hier explizit, insbesondere bei dem gesunden Menschenverstand unnatürlich hoch aber auch niedrig erscheinenden Korrelationen zwischen zwei Merkmalen.
Beobachtet man die Merkmale x, y und u genau n-mal, so ermittelt man jeweils die Einfachkorrelationen r
xy
, r
xu
, r
yu.
Es ist dann
−
Beobachtet man Merkmalsgruppen X (x1, ..., p), Y (y1, ..., q) und U (u1, ..., k) genau n-mal, wobei gelten soll, dass p + q + k < n und p ≤ q, so bildet man ausgehend von
Page 8
D =
...
und weiter
-1
S
11
= S
xx
- S
xu
⋅S
uu
Dann ist r ((X1…p), (Y1…q) | (U1...k)) = √λ G , d.h. die Wurzel aus dem größten Eigenwert von [Q].
Hauptkomponentenanalyse (HKA)
Betrachtet man die Merkmale z.B. hinsichtlich ihrer Einfachkorrelationen, so kann man feststellen, dass sie oft starke Redundanz aufweisen, d.h. Informationen sind sowohl in dem einen als auch in dem anderen Merkmal vertreten (Kollinearität). Diese Redundanz ist im allgemeinen nicht nur wertlos, sie ist häufig auch störend, da zu viele „ähnliche“ Merkmale die Analyse erschweren.
Während die Variablenselektion bei der Regression ein spezielles Verfahren gegen zu starke kollineare Mehrfachmessungen darstellt, bietet die HKA einen allgemeinen Zugang.
Ziel der HKA ist Datenreduktion (quantitativer Vorteil, z.B. zur besseren Darstellung, etwa in Graphiken) und Datenoptimierung (qualitativer Vorteil, da Kollinearität der Merkmale untereinander ausgeschaltet wird). Nachteil der HKA ist die schlechtere Interpretierbarkeit der „künstlichen“ Hauptkomponenten, welche nicht mehr einzelnen Merkmalen zugeordnet werden können.
Forderungen für die HK sind, dass sie untereinander linear unabhängig (orthogonal) sind, also keine Kollinearität aufweisen, und die Gesamtvariation der Originalvariablen möglichst gut wiedergeben. Damit sinnvoll von einer Gesamtvariation der Daten gesprochen werden kann muss das Merkmal der Kommensurabilität gefordert werden, d.h. dass alle Merkmale in derselben Einheit gemessen werden und so vergleichbare Ausdehnungen in der Varianz haben.
Ausgangspunkt für die HKA ist deshalb die Matrix der standardisierten Beobachtungswerte Z welche diese Forderung erfüllt. Die Mittelwerte über die einzelnen Merkmale sind jeweils z j = 0 (j = 1, ..., m) ,
so dass die Korrelationsmatrix R auch als Varianz-Kovarianzmatrix von Z interpretiert werden kann [ R = (1/n-1)Z’Z - 0’0 ]. Die Gesamtvariation von Z ist also gleich der Σ j z ij = sp(R) = m
Zu Beginn der HKA sollte ein Test mit H 0 : R = I gegen H 1 : R ≠ I zum Signifikanzniveau α durchgeführt werden (unterscheidet sich R nämlich nur zufällig von der Einheitsmatrix I sind die einzelnen Merkmale bereits unkorreliert, eine HKA wäre dann unsinnig). Es ist im einzelnen
Page 9
Versucht wird nun, sogenannte (n1)-Hauptkomponentenvektoren der Form y j = Z⋅g j zu entwickeln, wobei g j ein noch unbestimmter Gewichtsvektor ist. Da die einzelnen y j direkt aus Z resultieren ist also auch der Mittelwert y j = 0.
Für alle k-Hauptkomponenten (k ≤ m) gilt also Y = Z⋅G, wobei die einzelnen Vektoren y j orthogonal sein sollen [d.h. Cov(y a , y b ) = 0 ; mit a,b ∈ j], jeweils g j ’g j = 1 gelten soll (Normierung der g j ) und die Varianz maximiert werden soll (s.o.).
Man ermittelt die HK durch Maximierung von
Var(y j ) = (1/n-1)⋅y j ’⋅y j = (1/n-1) g j ’⋅Z’⋅Z⋅g j = g j ’⋅R⋅g j . Aufgrund der Nebenbedingung, dass g j ’g j = 1 gelten soll, kann man die Lagrange - Funktion L j (g j , λ) = g j ’⋅R⋅g j - λ( g j ’g j - 1) bilden. Die partielle Ableitung nach g j ergibt nun 2 Rg j - 2λg j = (R - λI)g j =! 0
die charakteristische Gleichung von R, d.h. g j ist der Eigenvektor zum Eigenwert λ j .
Weiterhin kann gezeigt werden, dass
Var(y
j
) = Var (Zg
j
) = g
j
’⋅R⋅g
j
= g
j
’⋅λI⋅g
j
=
λ,
so dass
Man erhält also insgesamt m-Eigenwerte, wobei gilt, dass
Σ j λ j = sp(R) = m und Π j λ j = |R|
Alle λ j (j = 1, ..., m) geben also R exakt wieder und die g j -Eigenvektoren zu λ j sind außerdem noch orthogonal zueinander (!).
Zu fragen ist nun noch, wie viele HK extrahiert werden sollen, da man ja primär eine Datenreduktion erreichen möchte. Zu dieser Bestimmung gibt es mehrere Möglichkeiten, z.B. berechnet man so viele HK, wie λ j > 1 existieren (da nur bei diesen die Varianz der HK größer als die Varianz der zugrunde liegenden Originalvariablen ist) oder man beginnt mit dem größten λ j und ermittelt so viele HK, bis der kumulierte Anteil an der Gesamtvariation größer einem vorgegebenen Anteil ist.
Die Güte der k-HK ergibt sich als Kennziffer mit Σ j λ j / m (j = 1, ..., k). Die so gewonnene nk-Matrix Y = Z⋅G kann nun wie eine Datenmatrix behandelt werden
Varianzanalyse
Im nun folgenden sollen Verfahren betrachtet werden, die im wesentlichen auf Unterschieden zwischen beobachteten Objekten aufbauen. Im Mittelpunkt stehen jetzt also, im Gegensatz zu den zuvor vorgestellten Verfahren, nicht mehr die Merkmale selbst, sondern deren Merkmalsträger (Objekte). Vorausgesetzt wird dabei immer, dass die Objekte in signifikant unterschiedliche Klassen eingeteilt werden können.
Mit Hilfe der Varianzanalyse soll geprüft werden, ob sich beobachtete Stichproben hinsichtlich ihrer Merkmalsmittelwerte nur zufällig oder signifikant unterscheiden, ob man also die o.g. Forderung nach Unterschieden zwischen den Objekten überhaupt aufrecht erhalten kann.
Wie bei allen Verfahren liegt anfangs eine Datenmatrix X vor, die man nun jedoch in K-Klassen einteilt, wobei jede Klasse k (k = 1, ..., K) genau N k -Objekte enthält.
Page 10
Als zusätzliche Information erhält man so Aussagen über die Streuung innerhalb einer Klasse sowie zwischen den Klassen selbst, welche für die weitere Analyse benötigt werden.
Die totale Abweichungsquadrat- und Produktmatrix von den Gesamtmerkmalsmittelwerten (Totale-Sum of Squares and Products-Matrix) T erhält man mit T = A’A [ = (n-1)S ],
wobei natürlich der Bezug zur Gesamtstreuung wie angegeben offensichtlich ist. Die Inner-Klassen-SSP-Matrix W k (d.i. die „Streuung“ innerhalb jeder einzelnen Klasse k) ergibt sich dann logischerweise mit W k = A k ’A k ,
(d.h. man berechnet die quadrierte Abweichungsmatrix A k für jede Klasse k = 1, ..., K bezüglich der Klassenmerkmalsmittelwerte x k ). Die Summe alle Inner-Klassen-Abweichungen ist dann genau W = Σ k W k .
Die Zwischen-Klassen-SSP-Matrix B berechnet man mit B = Σ k [ N k (x k - x)(x k - x)’ ]
(d.h. man berechnet jeweils die quadrierte Abweichung der Klassenmerkmalsmittelwerte x k zu den Gesamtmerkmalsmittelwerten x, gewichtet mit der Objektanzahl jeder Klasse k).
Als Fundamentalgleichung der Varianzanalyse gilt analog dem univariaten Streuungszerlegungssatz, dass T = W + B = W 1 +...+ W K + B.
(„Gesamtstreuung = summierte Streuung in den Klassen + Streuung zwischen den Klassen“).
Mit Hilfe eines einfachen χ 2 - Tests prüft man nun, ob sich, wie gesagt, die Mittelwerte der Klassen signifikant (zum Signifikanzniveau α) oder nur zufällig voneinander unterscheiden. Die Nullhypothese lautet
H
0
:
µ
1
=...=
µ
K
gegen H1 : H
1
≠
H
0
, wobei gilt
Es ist dabei
mit N = Gesamtanzahl der Merkmalsträger (=Σ k (N k )), m = Anzahl der Merkmale (= Anzahl der Mittelwerte), K = Anzahl der Klassen und ∧ = |W| / |T| ∧ ist dabei die sog. Wilk’sche Prüfvariable, welcher die Vorstellung zu Grunde liegt, dass wenn H 0 gelten würde, müsste T ≈ W gelten, d.h. die Gesamtabweichung aus der (einen) Inner-Klassen-Abweichung resultieren, und so |W| / |T| ≈ 1 sein, also ln ∧ gegen Null gehen. Des weiteren ist
χ 2 tab das (1-α)-Quantil der χ 2 -Verteilung mit m⋅(K-1)-Freiheitsgraden.
Hat man diesen rechtsseitigen Signifikanztest durchgeführt und muss die Nullhypothese ablehnen, so können die nachfolgenden Verfahren sinnvoll durchgeführt werden.
Diskriminanzanalyse
Bei einer Diskriminanzanalyse ist bekannt, dass eine Grundgesamtheit X in K-Klassen zerfällt (K≥2, k=1, ... K), welche sich signifikant voneinander unterscheiden und man des weiteren (z.B. aus einer Lernstichprobe) Aussagen über Eigenschaften der einzelnen Klassen aus X kennt. Man sucht nun Entscheidungsregeln, um neue beobachtete Vertreter v in eine Klasse korrekt einordnen zu können. Man kann insofern behaupten, dass aufgrund bekannter Merkmale des neuen Vertreters v eine Art Intervallschätzung auf ebenfalls bekannte Klassenintervalle durchgeführt wird (im Gegensatz zur Punktschätzung der Regression).
Page 11
Der zentrale Zugang zur Diskriminanzanalyse erfolgt dabei über die theoretische Wahrscheinlichkeitstheorie.
Wird angenommen, dass ein Objekt ω Element eines Wahrscheinlichkeitsraumes Ω k ( k = 1, ..., K) genau mit der Wahrscheinlichkeit p(k) unter der Verteilungsannahme f(x | k) ist, können Aussagen über die Klassenzugehörigkeit unbekannter Objekte getroffen werden. Dabei ist p(x) und f(x | k) meist unbekannt und muss deshalb aus einer Lernstichprobe geschätzt werden.
Die a-priori-Wahrscheinlichkeit der Klassenzugehörigkeit ist die totale Wahrscheinlichkeit f(x) = Σk p(k)⋅ f(x | k).
Die a-posteriori-Wahrscheinlichkeit, in eine Klasse zu gehören, ergibt sich mit der Formel von Bayes als p(k | x) = p(k)⋅ f(x | k) / f(x).
Als Entscheidungsregel gilt nun allgemein, dass man für ein neues Objekt v jeweils p(v | x) ∀ v ∈ k
bildet und v der Klasse k zuordnet, bei der p(v | x) maximal ist.
Dieser Zugang ist so jedoch praktisch häufig nicht ohne weiteres intuitiv durchführbar, so dass sich in der Literatur zwei spezielle Hauptansätze gebildet haben.
Der Erste arbeitet unter der Annahme, dass die Objekte innerhalb einer Klasse normalverteilt sind, d.h. f(x | k) ∼ NV (µ k , σ k ) [vgl. χ 2 - Anpassungstest] Durch Umformungen der allgemeinen Regel kann man zeigen, dass nun einfach zwischen dem Beobachtungsvektor v und den Mittelwertvektoren der einzelnen Klassen k jeweils die quadrierte Mahalanobis-Distanz gebildet werden muss, also d k (v) = (v - x k )’⋅S -1 ⋅(v - x k ) für alle k = 1, ..., K.
v wird dann zu der Klasse zugeordnet, bei der d k (v) minimal ist. Speziell gilt im 2-Klassen-Fall : d(v) = (v - ½(x 1 + x 2 ))’⋅S -1 ⋅(x 1 -x 2 ) v→ Klasse 1 d(v) > 0. und
Der zweite Hauptansatz nach R.A.Fisher hat den Vorteil, dass er verteilungsfrei und heuristisch arbeitet. Die Idee dabei ist, dass das mehrdimensionale Zuordnungsproblem zunächst auf ein eindimensionales reduziert werden soll, um so vereinfachte Zuordnungsaussagen treffen zu können.
Sind x Beobachtungsvektoren aus einer bekannten Lernstichprobe (bei der man die Klassenzugehörigkeit kennt) mit m-Merkmalsvariablen, so soll als Linearkombination y = a’x mit a = (a 1, ..., m )’
gelten, wobei a so zu wählen sein soll, dass die zerlegten x-Werte durch die eindimensionalen y-Werte „möglichst gut“ wiedergegeben werden.
Für den 2-Klassen-Fall sind
2 = Σ n (y un - y u ) 2 für u = 1, 2 y u = a’x u , s u
jeweils die Mittelwerte und die Inner-Klassen-Abweichungen der y in der Klasse
Dann soll a, um die Zerlegung „möglichst gut“ (s.o) zu gewährleisten, so gewählt werden,
Die Zerlegungsgüte ist also bestimmt durch den Abstand der y-Mittelwerte relativ zur Gesamtsumme der internen quadrierten Abweichungen, d.h. entweder liegen die bereits einer der beiden Klassen zugeordneten eindimensionalen Punkte in ihren Mittelwerten sehr weit
Page 12
auseinander oder aber ihre jeweilige Klassenstreuung ist sehr gering (hohe Homogenität). Das Q(a) ein Maß für die Güte von a darstellt, ist daher offensichtlich.
2 2 Es ist nun s 1 + s 2 = a’Wa, da zusätzlich auch noch eine Normierung mit a’a = 1 gelten soll, so dass eingesetzt
Gemäß der Quotientenregel ist daher die erste Ableitung von Q(a) gleich Q’(a) = [2(x
1
- x
2
)a’Wa - 2Wa(a’x
1
- a’x
2
)] / (a’Wa)
2
=! 0
Der Rest stellt dabei lediglich einen Proportionalitätsfaktor dar, welcher die Richtung von a nicht beeinflusst.
Als Klassifikationsregel für neue Objekte v gilt nun, dass man y = a’v bildet und v der Klasse 1 zuordnet, wenn y näher an y 1 liegt als an y 2 .
Für den Mehr-Klassen-Fall ist die Herangehensweise ähnlich, nur dass jetzt (bereits umgeformt) Q(a) = a’Ba / a’Wa
maximiert werden soll. Entweder ist also die Streuung zwischen den Klassen (B) sehr groß (hohe Heterogenität) oder die einzelnen Klassen in sich eben wieder sehr zentriert. Weiterhin gilt natürlich, dass a’a = 1 ist.
Leitet man nun nach a ab, so ergibt sich
W -1 Ba = λa.
Insofern ist der Richtungsvektor a jetzt genau ein Eigenvektor von W -1 B zum Eigenwert λ, wobei es ob der Maximierung von Q(a) sinnvoll ist, den Vektor a zum größten Eigenwert λ G zu bilden. (Grund : y k = a k ’x stellen kanonische Variablen dar.)
Als Entscheidungsregel gilt nun, dass man jeweils
[a’( v- x k )] 2 ; k = 1, ..., K
bildet und v der Klasse k zuordnet, bei der dieser Term minimal wird.
Clusteranalyse
Aufgabe der Clusteranalyse ist es, aus einer Stichprobe ohne bekannte Klassenzuordnung, den Versuch zu unternehmen, eben solche Klassen zu erarbeiten.
Vorgabe ist dabei immer, dass sich die Objekte innerhalb einer Klasse möglichst ähnlich (homogen) und zwischen den Klassen möglichst unähnlich (heterogen) sein sollen, oder äquivalent, dass bei bekannter Gesamtstreuung T (aus den einzelnen Objekten der Stichprobe) die Klasseneinteilung so erfolgt, dass W minimal (und so B maximal) ist.
Da es im Rahmen einer Clusteranalyse sehr viele Verfahren gibt, bedarf es anfangs dreier Festlegungen, nämlich die des Konstruktionsverfahrens (hierarchisch, nicht-hierarchisch), des Homogenitäts- und des Heterogenitätsmaßes.
Wichtig sind hier insbesondere Distanzmaße, da sie, wie bereits festgestellt, Aussagen über die Ähnlichkeit oder Unähnlichkeit von Objekten erlauben. Je kleiner die Abstände innerhalb einer (neu geschaffenen) Klasse sind, desto kleiner ist die Inner-Klassen-SSP W, je größer die Distanzen zwischen den einzelnen Klassen, desto größer ist natürlich B. Gebräuchlich sind vor allem die euklidische- und die Mahalanobis-Distanz.
Page 13
Zuerst möchte ich die hierarchischen Verfahren erläutern, wobei allerdings nur die agglomerativen Verfahren(im Gegensatz zu den divisiven) näher betrachtet werden sollen. Diese verlaufen skizziert wie folgt : a. am Anfang bildet jedes der n-Objekte seine eigene Klasse k b. ausgehend von der Datenmatrix X wird die nn-Distanzmatrix D gebildet c. man fasst die beiden Objekte p und q mit der geringsten Distanz d pq zu einer neuen Klasse zusammen, da diese sich offensichtlich am ähnlichsten sind d. von dieser neuen Klasse bestimmt sich die Distanz zu den anderen Klassen als Single-Linkage (Nearest Neighbour) = min(d pi , d qi )
Complete-Linkage (Furthest Neighbour) = max(d pi , d qi ) Average-Linkage = ½(d pi + d qi ) wobei i ≠ p,q
→ diese Unterscheidung bestimmt wesentlich das Heterogenitätsmaß, wobei die Klassen dadurch tendenziell zusammengestaucht (Single-Linkage) oder ausgeweitet (Complete-Linkage) werden e. man erhält also eine neue (n-1)(n-1)-Distanzmatrix D*
f. ausgehend von dieser werden die Schritte c-e solange wiederholt, bis alle Objekte in einer Klasse versammelt sind (insgesamt erhält man so 2n-1 Klassen) g. dargestellt wird die so gewonnene Hierarchie in einem Dendogramm, welches die Fusionen in Abhängigkeit zur Distanz darstellt
Agglomerative Verfahren haben den Vorteil, dass sie relativ einfach durchgeführt werden können und, gerade bei der Betrachtung des Dendogramms, sehr intuitive Grobklassifizierungen erlauben. Man erhält also keine vorgegebene Anzahl von Klassen, sondern Aussagen über Fusionen bzw. Aufspaltungen von zwei Objekten / Unterklassen in bezug auf ein bestimmtes Ähnlichkeitsniveau (Distanz) - eben eine hierarchische Anordnung. Es ist offensichtlich, dass die Anwendung unterschiedlicher Homogenitäts- oder Heterogenitätsmaße durchaus zu unterschiedlichen Ergebnissen führen kann. Um hier nicht den Eindruck der Beliebigkeit von hierarchischen Verfahren zu hinterlassen, sei erwähnt, dass man eventuell mehrere, jeweils genau nach Typ dokumentierte, Analysen durchführen kann und deren (unterschiedliche) Ergebnisse zusammenfasst. Vorstellbar ist zum Beispiel die Bildung von „Kernklassen“, also solchen, die Objekte enthalten, welche sich bei jeder Analyse sehr ähnlich waren.
Divisive Verfahren gehen genau den umgekehrten Weg zu agglomerativen, d.h. sie vereinigen anfangs alle Objekte in einer Kasse und spalten diese dann auf. Da divisive Verfahren sehr rechenaufwändig sind und zu weniger guten Ergebnissen führen, bleiben sie hier nur am Rande erwähnt.
Zu den nicht-hierarchische Verfahren ergibt sich folgende skizzierte Durchführung: a. man teilt die n-Objekte in eine Anfangspartition mit K ≈ √n/2 - Klassen (evt. nach erfolgter hierarchischer Clusterung oder intuitiv) ; dieser Wert stellt eine grobe Approximation für eine „sinnvolle“ Klassenanzahl dar
b. nun wird für jedes Objekt i (i = 1, ..., n) die Distanz zu allen Klassenmittelwerten x k (k = 1, ..., K) bestimmt
c. man ordnet die Objekte jeweils der Klasse zu, mit der sie den geringsten Abstand haben und berechnet die so entstandenen neuen Klassenmittelwerte und Distanzen d. können keine sinnvollen Umgruppierungen mehr vorgenommen werden ist die iterativ beste Partition erreicht ; dabei ist diese „beste“ Partition natürlich abhängig von der Anfangspartition, aufgrund der direkten Wirkung auf die anfänglichen Klassenmittelwerte und die daraus folgenden Distanzen zu den Objekten
Page 14
Insbesondere der letzte Punkt offenbart, dass es auch bei den nicht-hierarchischen Verfahren zu verschiedenen Ergebnissen kommen kann, so dass oben getroffene Aussagen zu Mehrfachanalysen mit unterschiedlichen Startpartitionen ebenso zutreffen.
Führt man beide Verfahren zusammenhängend und ggf. mit Variationen durch, kann man sagen, dass (immer unter der Prämisse, dass es „natürliche“ Klassen gibt, in die sich die Objekte einteilen lassen) die Clusteranalyse solche Klassenzuordnungen hinreichend gut aufdecken wird.
Abschließend kann man noch ein einfaches Gütekriterium der Analyse mit Hilfe der Aussagen über Varianzen wie folgt bestimmen : Aus der Aussage, dass T = W + B bzw. analog sp(T) = sp(W) + sp(B)
gilt, folgt bezüglich der Zielidee der Clusteranalyse, dass es positiv ist, wenn die Spur der Inner-Klassen-SSP-Matrix W minimal (Homogenität) und so die Spur der Zwischen-Klassen-SSP-Matrix B maximal (Heterogenität) ist (s.o.).
Im Idealfall ist also sp(T) = sp(B) und somit sp(W) = 0, so dass allgemein das Verhältnis sp(B)/sp(T) eine Güteinformation darstellt.
Skalierung
Dieser letzte Abschnitt soll noch einen kurzen Ausblick darauf geben, welche Probleme (und Lösungsansätze) mit dem zentralen Mittel der multivariaten Analyse, nämlich den Daten selbst, auftreten können.
Grundsätzlich kann man kardinale (Proportionen und Abstände direkt messbar, z.B. Körpergröße), ordinale (lediglich Rangordnung erkennbar, z.B. Schulnoten) und nominale (nur einfache Klasseneinteilung, z.B. Nationalitätenzugehörigkeit) Merkmale unterscheiden. Es ist offensichtlich, dass allein kardinale Daten für die multivariate Analyse direkt nutzbar sind, andernfalls muss unter möglichst geringen Informationsverlusten skaliert werden.
Treten kardinale Daten auf und misst man diese innerhalb einer Datenmatrix alle mit gleicher Einheit, so können diese Daten direkt für die Analyse genutzt werden, auch wenn ungleiche Bedingungen vorliegen (z.B. Unternehmensdaten von Unternehmen verschiedener Größen). Werden jedoch in einer Datenmatrix Merkmale in unterschiedlichen Einheiten gemessen (z.B. Umsatz, Mitarbeiteranzahl, Summe der ausgefallenen Stunden durch Krankheit etc.), so ist es sinnvoll, die Matrix der standardisierten Beobachtungswerte Z zur Analyse zu nutzen, da diese dimensionslos ist ( Mittelwerte jeweils = 0, Varianz = 1) und so Verzerrungen durch die unterschiedlichen Einheiten ausschließt.
Eine Retransformation der z-Werte in die Originaldaten ergibt sich mit x ij = z ij ⋅Varianz(x j ) + x j .
Bei ordinalen Daten (mit j Ausprägungen) ist eine (sehr grobe) Möglichkeit der Skalierung, ggf. nach einer Lernstichprobe zu entscheiden, ob das Merkmal NV(µ, σ)- oder Uniform-verteilt ist (z.B. durch χ 2 -Anpassungstest).
Alsdann teilt man die zugehörige Verteilungsfunktion in die j möglichen Klassen ein, so dass die Fläche unter der Funktion gleich der Wahrscheinlichkeit 1/j ist und x a < x b für a < b gilt (a,b ∈ j).
Man erhält somit j Klassen mit einer Untergrenze x u und einer Obergrenze x o , so dass der skalierte Klassenwert c sich dann mit c = x u + (x o -x u / 2) ergibt.
Page 15
Intention insbesondere der Normalverteilungsannahme ist es, dass sich Ausprägungen in der Mitte ähnlicher sind (und deshalb näher in bezug auf den skalierten Wert c zusammenliegen) als zu den Randextremen, so dass man auf diesem Wege zu hinreichend gut skalierten Daten kommt.
Auch hier ist es dann sinnvoll die Matrix Z zur weiteren Analyse zu nutzen
Mit nominalen Daten hat man das Problem, dass man Ähnlichkeiten oder Unterschiede direkt nicht feststellen kann, so dass nominale Merkmale in sich nicht skaliert werden können. Versucht wird oft, das nominale gegen ein relevantes kardinales Merkmal zu skalieren, so dass die Korrelation zwischen beiden maximal wird - hier sei aber allgemein auf Fachliteratur zu diesem speziellen Thema verwiesen.
Literatur
Marinell, G. ; Multivariate Verfahren ; Oldenbourg 1998 - Hartung,J. , Elpelt, B. ; Multivariate Statistik ; Oldenbourg 1989 - Fahrmeir,L. et al. ; Multivariate statistische Verfahren ; de Gruyter 1984 - Rinne,H. ; Statistische Analyse multivariater Daten ; Oldenbourg 2000 -
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.