Mit der vorliegenden Modellierung soll eine Vorhersage darüber erfolgen, ob jemand eine Arbeitsstelle bekommen hat. Bei den Test- und Trainingsdatensätzen handelt es sich um Datensätze aus einer Absolventenstudie. Ziel dieser Vorhersagemodellierung ist es möglichst häufig, die im Trainingssatz vorliegende Variable “Job” vorherzusagen. Auf Basis des Trainingsdatensatzes wird ein Modell erstellt und auf den Testdatensatz angewendet. Mit den gewonnen Erkenntnissen lassen sich gegebenenfalls frühzeitig Karriereentscheidungen treffen, die zu einer Einstellung führen.
Table of Contents
1. Einleitung und Zielsetzung
2. Studiendesign und Datenerhebung
3. Deskriptive Statistik und Datenvorverarbeitung
4. Modell und Modellwahl
5. Anwendung, Ergebnis und Vorhersage
Literaturverzeichnis
1. Einleitung und Zielsetzung
Mit der vorliegenden Modellierung soll eine Vorhersage darüber erfolgen, ob jemand eine Arbeitsstelle bekommen hat. Bei den Test- und Trainingsdatensätzen handelt es sich um Datensätze aus einer Absolventenstudie.
Ziel dieser Vorhersagemodellierung ist es möglichst häufig, die im Trainingssatz vorliegende Variable “Job" vorherzusagen. Auf Basis des Trainingsdatensatzes wird ein Modell erstellt und auf den Testdatensatz angewendet. Mit den gewonnen Erkenntnissen lassen sich ggf. frühzeitig Karriereentscheidungen treffen, die zu einer Einstellung führen.
2. Studiendesign und Datenerhebung
Die Datensätze werden im Zuge der sonstigen Beteiligung zur Verfügung gestellt.
Als exogene Variablen liegen die Werte für (x) vor:
geschlecht: Geschlecht der Person. Spezialisierung_Schule: Gewählte Vertiefung der Schule. score_schule: “Erfolg" in der Schule (ähnlich Note). Je höher desto besser. spezialisierung_hochschule: Gewählte Vertiefung an der Hochschule. score_hochschule: “Erfolg" in der hochschule (ähnlich Note). Je höher desto besser. berufserfahrung: Ob bei der Person Berufserfahrung vorliegt. score_berufsfähigkeit: Einschätzung der Berufsfähigkeit der Person. Je höher desto besser.
Dem gegenübersteht die Zielvariable “Job" die vorhergesagt werden soll. Diese ist im Testdatensatz nicht vorhanden und soll modelliert werden.
3. Deskriptive Statistik und Datenvorverarbeitung
Die deskriptive Statistik hat das Ziel Daten zu komprimieren und daraus neue Erkenntnisse zu erlangen.1
Abbildung in dieser Leseprobe nicht enthalten
Es handelt sich um einen vollständigen Datensatz. Im Folgenden werden die Daten mit deskriptiver Statistik aufbereitet.
Abbildung in dieser Leseprobe nicht enthalten
Es wird festgestellt, dass fünf kategoriale und drei nummerische Variablen mit jeweils 165 Beobachtungen vorliegen. Die Befragten waren zu 37 % weiblich und zu 63 % männlich.
Abbildung in dieser Leseprobe nicht enthalten
Die Befragten haben zu 69,1% einen Job erhalten, das entspricht 114 Personen. Dem entgegengesetzt haben 30,9% bzw. 51 Personen keinen Job bekommen. Job ist eine Faktorvariable, Wobei “Ja" y=0 und “Nein" y=1 entsprechen soll. Im Folgenden wird die Variable dafür releveled.
Abbildung in dieser Leseprobe nicht enthalten
Im nächsten Schritt wird exemplarisch dargestellt, wie geprüft wird, ob in die exogenen Variablen jeweils die Personen vertreten sind, die einen Job bekommen haben. Es wird exemplarisch die Geschlechtsverteilung innerhalb der Zielvariable untersucht.
Abbildung in dieser Leseprobe nicht enthalten
Zunächst wird damit festgestellt, dass beide Geschlechter in der Stichprobe vertreten sind. Wobei mehr Männer (n=104) als Frauen (n=61) in der Stichprobe vertreten sind auch die Anteile der Personen die einen Job bekommen haben ist bei den Männern um 10,78 % höher als bei den Frauen. Dort konnten lediglich 62,3 % eingestellt werden.
Abbildung in dieser Leseprobe nicht enthalten
Betrachtet man den Zusammenhang zwischen der Spezialisierung in der Schule und ob die Personen in Nachgang einen Job erhalten haben stellt man fest, dass lediglich 7 Personen die Spezialisierung Kunst hatten und tendenziell (42,86 %) eher keinen Job erhalten haben. Währenddessen haben die Personen mit der Spezialisierung Handel (69,41 %) oder Wissenschaft (71,23 %) erfolgreicher waren. Es bestand die Überlegung, die Ausprägung Kunst zu eliminieren, da diese unverhältnismäßig selten im Vergleich zu den anderen Ausprägungen auftaucht. Die Ausprägung wurde jedoch in die Untersuchung einbezogen, da sie entgegengesetzt zu den anderen Ausprägungen einen eher negativen Bezug zu der Zielvariable hat und folglich mehr Variation modelliert.
Abbildung in dieser Leseprobe nicht enthalten
Betrachtet man exemplarisch die Verteilung der erreichten Punkte in der Hochschule findet man eine rechtsschiefe Verteilung vor. Es wurden in der vorliegenden Stichprobe eine Spannweite zwischen 51,35 und 75,68 erhoben. Der arithmetische Mittelwert liegt bei 62,32 und der Median bei 61,69. Der IQR liegt 8,43. Werte ab 79,38 wären potenzielle Ausreißer, liegen in der Stichprobe jedoch nicht vor.
Abbildung in dieser Leseprobe nicht enthalten
Die Varibale score_schule weist eine größere Spannweite zwischen 37,6 und 96,6 aus. Auch hier liegt der Median mit 64,9 nah an dem arithmetischen Mittelwert von 66,72. Die Standardabweichung beträgt dabei 11,03. Werte, die über 86,045 liegen sind potenzielle Ausreißer. Es bestand die Möglichkeit diese aus der Stichprobe zu entfernen, allerdings wurde die hohe Spannweite der Variable als effektiver für die Modellierung erachtet.
Abbildung in dieser Leseprobe nicht enthalten
4. Modell und Modellwahl
Die Vorhersage der Zielvariable Job wird mit einer multiplen logistischen Regression durchgeführt.
Dabei handelt es sich um eine simplere Form der linearen Regression. Die Verwendung ist angemessen, da eine abhängige diskrete Variable, die ein dichotomes Niveau aufweist, modelliert werden soll. Die Beurteilung der Modellgüte wird mit dem AIC durchgeführt, je geringer das AIC desto besser passt das Modell. Des Weiteren wird McFaddens Pseudo-R2 herangezogen, welches das Bestimmtheitsmaß des Modells approximiert.2
5. Anwendung, Ergebnis und Vorhersage
Im Zuge der Prognose wird die H0 aufgestellt, dass es keinen Zusammenhang zwischen den Prädiktorvariablen und der Zielvariable “Job” gibt. Dem steht die Alter nativhypothse H1 entgegen, die von einem Zusammenhang ausgeht.
Bei der Konstruktion des Modells wurden zunächst alle zur Verfügung stehenden Variablen einbezogen. Darauf aufbauend wurde mit dem Step Logarithmus variablen eliminiert. Im Anschluss daran wurde an das Modell, dass sich daraus ergeben hat mit den vorhandenen Variablen kombiniert. Schließlich wurde ein finaler Step Logarithmus durchgeführt, der das Modell hervorbrachte, dass zur Vorhersage angewendet worden ist.
[...]
1 Vgl. Sauer, S., 2019, S. 103 f.
2 Vgl. Sauer, S., 2019, S. 352 f.
-
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X. -
¡Carge sus propios textos! Gane dinero y un iPhone X.