Autor: Dirk Lange
Regressions- und Korrelationsanalyse
Betrachtung von Zusammenhängen, also von Ursache -> Wirkung
Regression: Besteht überhaupt ein Zusammenhang (positiv oder negativ)?
Korrelation: Wie stark ist der Zusammenhang?
Problem: Quantifizierung des kausalen Zusammenhangs (Differenzierung von Variablen)
Beispiele | Werbung | Umsatz | |
Investition | Gewinn | ||
Zinsen | Investition | ||
Problem der Multikolliniarität, d.h. keine Abhängigkeit unter den unabhängigen Variablen sollte gegeben sein
a) einfache Regression: y = f(x)
b) multiple Regression: y = f(x1, x2, x3, ... xn)
c) partielle Regression: y = f(x1| x2, x3, x4)
d.h. x1 wird zuerst auf y getestet, der Rest bleibt konstant
dann wird x2 auf y getestet, der Rest bleibt konstant, usw... bis x4
Die Summe der Abweichungen (von der Geraden) muß gleich 0 sein
di = Abweichung; a = absolutes Glied; b = Steigung
Verteilung über jedem Alter = interne Streuung
gesamte Verteilung = externe Streuung
Berechnung der Regressionsgeraden
Methode der kleinsten Quadrate yi = a + bxi
a und b sind (unbekannte) Regressionskoeffizienten
Summe der quadratischen Abweichungen =
Die Minimierung von S bezüglich der Regressionskoeffizienten a und b erfolgt durch partielle Ableitung von S nach a und b und Nullsetzen der 1. Ableitung, d.h. erst nach a ableiten, dann einsetzen und nach b ableiten.
Regressionsgerade: |
Regressionsgerade:
Bsp.: 6 Personen werden zu ihrem Alter und ihrem Einkommen befragt:
Nettoeinkommen | yi | 500 | 600 | 1100 | 1500 | 2200 | 3100 |
Alter | xi | 20 | 21 | 25 | 28 | 36 | 44 |
Die Regressionsfunktion lautet: y = -1.606 + 107,1x
für die Zeichnung:
x = 0, also y = -1.606
x = 40, also y = 2.678
y = 0, also x = 15 (ab 15 Jahren kommt man ins plus)
P (29 | 1500) als ( x y - Punkt)
2. Beispiel:
Eine Firma hat ein neues Reinigungsmittel entwickelt. Bevor es auf den Markt kommt, wird auf 15 Testmärkten geprüft, wie der Verkaufspreis den Absatz des Produktes beeinflusst.
Zielgröße: Absatzquote in % = y
Instrumentvariable: Verkaufspreis / Packung = x
Absatzquote = f (Verkaufspreis)
Gesucht ist, wie stark der Verkaufspreis die Absatzquote beeinflusst!
Arbeitstabelle zur Berechnung der Regressionskoeffizienten
Test- Nr:. | Verkaufs preis x (xi) | Absatzquote in % (yi) | xi2 | xi · yi | xi -x | yi -y | Summe | |
1 | 170 | 62 | 28900 | 10540 | -50 | 2500 | 20 | -1000 |
2 | 170 | 65 | 28900 | 11050 | -50 | 2500 | 23 | -1150 |
3 | 180 | 46 | 32400 | 8280 | -40 | 1600 | 4 | -160 |
4 | 180 | 42 | 32400 | 7560 | -40 | 1600 | 0 | 0 |
5 | 180 | 55 | 32400 | 9900 | -40 | 1600 | 13 | -520 |
6 | 190 | 55 | 36100 | 10450 | -30 | 900 | 13 | -390 |
7 | 190 | 50 | 36100 | 9500 | -30 | 900 | 8 | -240 |
8 | 190 | 57 | 36100 | 10830 | -30 | 900 | 15 | -450 |
9 | 220 | 50 | 48400 | 11000 | 0 | 0 | 8 | 0 |
10 | 230 | 44 | 52900 | 10120 | +10 | 100 | 2 | +20 |
11 | 250 | 45 | 62500 | 11250 | +30 | 900 | 3 | +90 |
12 | 270 | 12 | 72900 | 3240 | +50 | 2500 | -30 | -1500 |
13 | 280 | 20 | 78400 | 5600 | +60 | 3600 | -22 | -1320 |
14 | 290 | 13 | 84100 | 3770 | +70 | 4900 | -29 | -2030 |
15 | 310 | 14 | 96100 | 4340 | +90 | 8100 | -28 | -2520 |
n = 15 | 3300 | 630 | 758.600 | 127.430 | 0 | 32600 | 0 | -11170 |
Ø = 220 Pf. | Ø = 42 |
Arbeitsschritte:
1) y bestimmen (Ø Absatzquote) = Summe %/n = 42%
2) x bestimmen (Ø Verkaufspreis) = Summe x/n = 3300/15 = 220
3) b bestimmen
4) a bestimmen
5) Die Regressionsgerade/-funktion lautet: y = 117,38 - 0,34264x
Frage: Wie hoch ist die Absatzquote bei einem Verkaufspreis von a) 2 DM und b) 2,50 DM bei der Funktion:
y = 117,38 - 0,34264x · f(200) = 48,852%, f(250) = 31,72%
y = 117,38 - 0,34264x · f(200) = 48,852%, f(250) = 31,72%
Ausssage über die Verteilung der Abweichungen · Korrelationsanalyse
4.2 Der Korrelationskoeffizient
Frage: Wie "stark" ist der Zusammenhang zwischen den beobachteten Variablen ausgeprägt? Also die Intensität des Zusammenhangs?
Diesen Zusammenhang drückt der Korrelationskoeffizient r aus
0 < r < +1 bzw. -1 < r < 0 mit den verschiedenen Möglichkeiten:
Zwei Streuungen (Abweichungen) sind zu betrachten:
1) interne Streuung (in der vertikalen Richtung), sollte möglichst klein sein
2) externe Streuung (in der horizontalen Richtung), möglichst groß
4.2.1 Bravair - Pearson´scher Korrelationskoeffizient
Bsp.: Arbeitstabelle zur Berechnung der Regressions-/Korrelationskoeffizienten
Arbeiter | yi | xi | yi - y | xi - x | (yi - y) · (xi - x) | (xi - x)2 | (yi - y)2 |
1 | 5 | 20 | -10 | -9 | 90 | 81 | 100 |
2 | 6 | 21 | -9 | -8 | 72 | 64 | 81 |
3 | 11 | 25 | -4 | -4 | 16 | 16 | 16 |
4 | 15 | 28 | 0 | -1 | 0 | 1 | 0 |
5 | 22 | 36 | 7 | 7 | 49 | 49 | 49 |
6 | 31 | 44 | 16 | 15 | 240 | 225 | 256 |
90 (y = 15) | 174 (x = 29) | 0 | 0 | 467 | 436 | 502 |
Interpretation:
Zwischen dem Nettoeinkommen und dem Alter besteht ein sehr hoher korrelativer Zusammenhang (r ist signifikant von Null verschieden).
Die Signifikanz hängt von der Art der Untersuchung ab; von den Anforderungen an das Modell. Es gibt eine Vorgabe eines kritischen Wertes, der erreicht werden muß.
Bestimmungsmaß:
ist ein relatives Maß für die Güte der Analyse. Es mißt die Stärke des Anteils der Streuung der abhängigen Variablen an der Gesamtstreuung.
B = r2 = 0,998212 = 0,9964 = 99,64%
Interpretation: 99,64% der Streuung der Nettoeinkommen der befragten Arbeiter ist durch die lineare Streuung der Regression mit dem Alter zu erklären. 0,4% der Streuung ist durch das Modell nicht geklärt (kann andere Zusammenhänge haben)
2. Beispiel: vergl. Tabelle "Reinigungsmittel"
Frage: Wie stark beeinflußt der Verkaufspreis die Absatzquote der Reinigungsmittel?
Interpretation: Zwischen der Absatzquote und dem Verkaufspreis besteht ein relativ enger (negativer) Zusammenhang.
Arbeitstabelle
Test- Nr:. | Verkaufs preis x (xi) | Absatzquote in % (yi) | xi2 | xi · yi | xi -x | (xi -x)2 | yi -y | (yi -y)2 | Summe |
1 | 170 | 62 | 28900 | 10540 | -50 | 2500 | 20 | 400 | -1000 |
2 | 170 | 65 | 28900 | 11050 | -50 | 2500 | 23 | -1150 | |
3 | 180 | 46 | 32400 | 8280 | -40 | 1600 | 4 | -160 | |
4 | 180 | 42 | 32400 | 7560 | -40 | 1600 | 0 | 0 | |
5 | 180 | 55 | 32400 | 9900 | -40 | 1600 | 13 | -520 | |
6 | 190 | 55 | 36100 | 10450 | -30 | 900 | 13 | -390 | |
7 | 190 | 50 | 36100 | 9500 | -30 | 900 | 8 | -240 | |
8 | 190 | 57 | 36100 | 10830 | -30 | 900 | 15 | -450 | |
9 | 220 | 50 | 48400 | 11000 | 0 | 0 | 8 | 0 | |
10 | 230 | 44 | 52900 | 10120 | +10 | 100 | 2 | +20 | |
11 | 250 | 45 | 62500 | 11250 | +30 | 900 | 3 | +90 | |
12 | 270 | 12 | 72900 | 3240 | +50 | 2500 | -30 | -1500 | |
13 | 280 | 20 | 78400 | 5600 | +60 | 3600 | -22 | -1320 | |
14 | 290 | 13 | 84100 | 3770 | +70 | 4900 | -29 | -2030 | |
15 | 310 | 14 | 96100 | 4340 | +90 | 8100 | -28 | 84 | -2520 |
n = 15 | 3300 | 630 | 758.600 | 127.430 | 0 | 32600 | 0 | 4.658 | -11170 |
Ø = 220 Pf. | Ø = 42 |
Interpretation: 82% der Absatzquote sind durch den Preis erklärt. Zwischen der Absatzquote und dem Verkaufspreis besteht ein relativ enger negativer Zusammenhang
Rangkorrelation: Man ersetzt die Beobachtungen (xi, yi) durch Paare von Rang-ahlen (xi*, yi*), die man durch fortlaufende Nummerierung der x bzw. y-Werte ihrer Größe nach erhält und errechnet für diese Rangpaare den Korrelationskoeffizient.
1. Beispiel: Studenten veranstalten am Ende ihres Skiurlaubs ein Wettrennen als Abfahrtslauf und als Slalom und erreichen dabei folgende Platzierungen:
Studenten | A | B | C | D | E | F | |
Abfahrt (x) | 2 | 1 | 3 | 4 | 5 | 6 | y von x abhängig |
Slalom (y) | 2 | 3 | 1 | 5 | 4 | 6 |
Gegeben sind die Rangzahlen R (xi) = xi* und R (yi) = xi*
der Beobachtungen und die Rangdifferenzen di = xi* - yi*, so gilt:
heißt Rangkorrelationskoeffizient (nach Pearson) und ist ein Maß für die Ausgeprägtheit des Zusammenhangs
Studenten | Abfahrt R (xi) = xi* | Slalom R (yi) = yi* | di | di² |
A | 2 | 2 | 0 | 0 |
B | 1 | 3 | -2 | 4 |
C | 3 | 1 | 2 | 4 |
D | 4 | 5 | -1 | 1 |
E | 5 | 4 | 1 | 1 |
F | 6 | 6 | 0 | 0 |
Summe: | - | - | 10 |
Interpretation: Es besteht ein relativ starker korrelativer (positiver) Zusammenhang
2. Beispiel: Beim Eiskunstlauf werden für 9 Läufer A und B - Noten festgehalten. Es ergeben sich dafür folgende Werte:
Läufer | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
A-Note (x) | 5,3 | 5,6 | 5,0 | 5,3 | 4,9 | 4,6 | 5,3 | 5,0 | 5,2 |
B-Note (y) | 5,4 | 5,4 | 5,1 | 5,2 | 5,0 | 4,5 | 5,5 | 4,8 | 5,1 |
Arbeitstabelle zur Berechnung der Rangkorrelationskoeffizienten
Läufer | A-Note xi | B-Note yi | R (xi) = xi* | R (yi) = yi* | di | di² |
1 | 5,3 | 5,4 | 3 | 2,5 | 0,5 | 0,25 |
2 | 5,6 | 5,4 | 1 | 2,5 | -1,5 | 2,25 |
3 | 5,0 | 5,1 | 6,5 | 5,5 | 1 | 1 |
4 | 5,3 | 5,2 | 3 | 4 | -1 | 1 |
5 | 4,9 | 5,0 | 8 | 7 | 1 | 1 |
6 | 4,6 | 4,5 | 9 | 9 | 0 | 0 |
7 | 5,3 | 5,5 | 3 | 1 | 2 | 4 |
8 | 5,0 | 4,8 | 6,5 | 8 | -1,5 | 2,25 |
9 | 5,2 | 5,1 | 5 | 5,5 | -0,5 | 0,25 |
Summe: | lt. Rangfolge 1 bis 9 bzw. Mitte | 0 | 12 |
Interpretation: Zwischen den Bewertungen der Läufer in der A-Note und in der B-Note besteht ein relativ hohe (positive) Korrelation, d.h. derjenige, der eine hohe A-Note erhält, erreicht i.d.R. auch eine hohe Bewertung in der B-Note.
5 Analyse von Zeitreihen
Zeitreihenanalyse
a) Querschnittsanalyse b) Längsschnittanalyse
zu a) Analyse der Struktur ökonomischer Zusammenhänge, bezogen auf den Zeitpunkt. Sie liefert Zustandsbilder zu bestimmten Zeitpunkten und ist nicht für Prognosezwecke geeignet.
zu b) Beschreibung der Merkmale innerhalb eines Zeitraums. Sie ist für Prognosezwecke geeignet. (Analyse von Zeitreihen)
Modell: y = f(t) y = Umsatz / Lohn / Produktionsentwicklung
f(t) = Periode, Tage, Wochen, Monate, Jahre,...
Definition Zeitreihen: Unter einer Zeitreihe versteht man die Entwicklung eines bestimmten Merkmals, dessen Werte im Zeitablauf zu bestimmten Zeitpunkten erfaßt und dargestellt werden.
Komponenten einer Zeitreihe: y = f (T, Z, S, R)
1) Trend (T), langfristig
2) Konjunktur (Z), mittelfristig
3) saisonale Einflüsse (S), kurzfristig
4) Restkomponente (R), zufällig
Für bestimmte Zwecke werden nur die Trendkomponente und die Saisonkomponente erfaßt und berechnet. S(t) und R(t) werden aus dem Vergleich der Daten ermittelt.
Beispiel: Der Umsatz entwickelte sich in den letzten 9 Jahren wie folgt:
Umsatz in Mio y | 5-Jahres-Werte | Trendwerte | |
1 | 4,8 | - | |
2 | 5,2 | - | |
3 | 5,6 | 26,7 / 5 = 5,34 = T1 | 5,34 |
4 | 4,9 | x = T2 = 5,50 | 5,50 |
5 | 6,2 | x = T3 = 5,62 | 5,62 |
6 | 5,6 | x = T4 = 5,78 | 5,78 |
7 | 5,8 | x = T5 = 5,98 | 5,98 |
8 | 6,4 | - | |
9 | 5,9 | - | |
50,4 | immer ungerade Jahre | gilt für die Mitte der Periode |
Nachteile:
1) Die ersten und letzten beiden Jahre der Zeitreihe werden in der
Trendkomponente nicht berücksichtigt (= Informationsverlust)
2) eine völlige Ausschaltung der Schwankungen ist nicht möglich
3) Da die Trendwerte schon vor dem Ende der Zeitreihe abbrechen ist die Methode für Prognosezwecke ungünstig
2) Die Methode der kleinsten Quadrate (vergl. Seite 2, Regressionsgerade)
Beispiel: Umsatzzahlen, quartalsweise
Quartale | 1996 | 1997 | 1998 | 1999 | 2000 |
1 | 168 | 179 | 185 | 191 | 201 |
2 | 210 | 223 | 231 | 233 | 245 |
3 | 190 | 195 | 210 | 220 | ? |
4 | 298 | 315 | 340 | 356 | ? |
866 | 912 | 966 | 1000 |
Arbeitsschritte:
1) y bestimmen (Ø Umsatz) = Summe Quartale / n = 232,777
2) x bestimmen (_ Quartal) = Summe x / n = 171/18 = 9,5
3) b bestimmen
4) a bestimmen
5) Die Regressionsgerade/-funktion lautet: y = 3,2941177 x + 201,4836
Berechnung der Umsatztrendwerte (vergl. Tabelle S. 14 in rot)
mit I / 1996 x = 1 Trendwert = 201,4836 +(1 * 3,2941) = 204,77
II / 1996 x = 2 Trendwert = 201,4836 +(2 * 3,2941) = 208,06
II / 2000 x = 18 Trendwert = 201,4836 +(18 * 3,2941) = 260,77
Erstellen von Trendprognosen
III / 2000 x = 19 Trendwert = 201,4836 +(19 * 3,2941) = 264,072
IV / 2000 x = 20 Trendwert = 201,4836 +(20 * 3,2941) = 267,366
IV / 2001 x = 24 Trendwert = 201,4836 +(24 * 3,2941) = 280,542
(ist nur der Trend ohne Saisonkomponente)
Interpretation:
Wenn die ökonomischen Bedingungen gleich bleiben und die Komponenten der Zeitreihe dieselbe Wirkung auf die Entwicklung ausüben wie bisher, so kann das Unternehmen im 4. Quartal 2001 einen Umsatz von 280,542 Mio. DM erwarten.
Die Ermittlung des Saisoneinfluß
Der Saisonindex (Saisonquotient, ist die prozentuale Abweichung der ursprünglichen, saisonbeeinflussten Werte einer Reihe von der saisonal unbeeinflussten Reihe)
Berechnungsschritte: 1) Ermittlung einer Vergleichsreihe
Interpretation (S1): Der tatsächlich eingetretene Wert (Ursprungswert) ist gegenüber dem saisonfreien Trendwert um 18% (1-0,82) abgeschwächt, d.h. im 1. Quartal 1996 liegt ein saison-schwächender Einfluß mit einer Wirkung von 18% vor.
oder: Wenn es keine saisonalen Schwankungen gegeben hätte, wäre der Umsatz in diesem Quartal um 21,89% höher gewesen (verminderte Basis von 0,82 !)
Interpretation (S4): Im 4. Quartal 1996 liegt ein saisonverstärkender Einfluß von ca. 39% vor
oder: Wenn keine saisonalen Einflüsse zur Wirkung gekommen wären, hätte der Umsatz im 4 Quartal 1996 um ____ % niedriger gelegen
Prognose über die Entwicklung des Umsatzes
Der erwartete Umsatz (y Dach = Schätzwerte) setzt sich aus den beiden Komponenten "Trend" und "Saisoneinfluß" zusammen.
= Trendwert (Trendfunktion) · Saisoneinfluß (im Durchschnitt)
6) Bsp.: Quartalsumsätze
(III, 2000) = 201,48 +(19·3,2941) · 0,893 = 235,813
Interpretation: Im 3. Quartal 2000 ist zu erwarten, dass der Umsatz saisonbedingt ca. 235,813 Mio. DM beträgt.
(IV, 2000) = 201,48 +(19·3,2941) · _______ 2,7443 = 373,24
(IV, 2001) = 201,48 +(24·3,2941) · 1,396 = 391,63
the very end
-
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X.