In this thesis it is predicted if a regarded firm will grow extraordinary in the next year and maybe even become a big company in the medium term. This is crucial information for private investors and fund managers who need to decide whether they should invest in a certain firm. Companies like Apple and Amazon have shown in the past that people who recognized the potential of such companies and bought their shares have earned a lot of money.
The prediction models, which are described in this paper, can also be used by politicians to identify companies which are eligible for funding. Because growing companies oftentimes hire many employees, it might be meaningful to facilitate their development process by selective subsidies to reduce unemployment. Furthermore, it is possible to question the prediction results of a financial analyst if he came to a different conclusion than a model.
Since annual reports are often publically available for free, it is reasonable to take advantage of them for such a prediction. Additionally, various information providers maintain huge databases with annual reports. A big data approach promises to further improve accuracy of predictions. This paper introduces methods, which enable to generate knowledge out of these huge data sources to identify extraordinary lucrative firms.
To generate these prediction models, a data mining approach is used which is based on the approved CRISP-DM proceeding model for data mining processes. CRISP-DM ensures comparability and the consideration of best practices. The prediction models are based on classification trees and forests because they have some very substantial advantages over other methods like neural networks, which are frequently used in literature. For instance, the underlying algorithms of the used model do not require a certain distributional assumption, accept both quantitative and qualitative inputs, and is not sensitive with respect to outliers. But the two most important advantages are that a tree can be easily interpreted by users which is important for the previously described stakeholders because it is not easy to trust the results of a model which one does not understand. This is why a lack of understanding might impede the practical implementation of such a model. Besides that, the used algorithms can handle missing data which occur very often in the available dataset. In other analysis, these data entries would have been removed even if only one value is missing.
Inhaltsverzeichnis
- LIST OF ILLUSTRATIONS
- LIST OF TABLES
- LIST OF ABBREVIATIONS
- ACKNOWLEDGMENT
- 1. INTRODUCTION AND PROBLEM DESCRIPTION
- 1.1 Intention of this thesis
- 1.2 Proceeding
- 2. INTRODUCTION TO KEY FIGURE ANALYSIS
- 2.1 The principle of key figures
- 2.2 The classical key figure analysis approach
- 2.3 Modern key figure analysis approaches
- 2.4 Limitations of annual report analysis
- 3. THE AVAILABLE DATASET
- 3.1 Description of the dataset
- 3.2 Data clean-up
- 4. KEY FIGURE SELECTION
- 4.1 Significant key figure requirements
- 4.2 The selected key figures of this analysis
- 4.2.1 Selected class variable
- 4.2.2 Selected qualitative key figures
- 4.2.3 Selected absolute key figures
- 4.2.4 Selected relative key figures
- 4.3 Class analysis
- 5. CLASSIFICATION TREES AND FORESTS
- 5.1 Preconsiderations
- 5.2 Classification trees
- 5.2.1 A simple example
- 5.2.2 Generation of classification trees
- 5.2.3 Pruning an existing tree
- 5.2.4 Relevant properties of CART trees
- 5.3 Random forest
- 5.3.1 Classification process of a random forest
- 5.3.2 Generation of random forest
- 5.3.3 Relevant properties of random forests
- 6. CLASSIFICATION RESULTS
- 6.1 Classification tree results
- 6.1.1 Examination of the most precise tree
- 6.1.2 Key indicator importance ranking
- 6.1.3 Transfer to data from 2011
- 6.2 Classification forest results
- 6.2.1 Transfer to data from 2011
- 6.2.2 Key indicator importance ranking
- 6.1 Classification tree results
- 7. CONCLUSION
- 7.1 Critical assessment
- 7.2 Outlook
- BIBLIOGRAPHY
- APPENDIX
- 1. THESIS' PROCEDURE MODEL
- 1.1 Definitions of "reference model" and "process model"
- 1.2 The CRISP-DM reference model
- 1.2.1 The six phases of CRISP-DM
- 1.2.2 Assessment of CRISP-DM
- 2. DATA EXTRACTION
- 3. CLASS COMPARISON DIAGRAMS
- 1. THESIS' PROCEDURE MODEL
Zielsetzung und Themenschwerpunkte
Die Masterarbeit befasst sich mit der Anwendung von Data-Mining-Methoden zur Identifizierung von Unternehmen mit außergewöhnlich starkem Wachstum. Die Arbeit zielt darauf ab, zu untersuchen, ob sich mithilfe von Klassifikationsbäumen und -wäldern, die auf Jahresabschlussdaten basieren, Unternehmen mit hohem Gewinnwachstum im Folgejahr vorhersagen lassen. Die Arbeit fokussiert sich dabei auf die Analyse eines umfangreichen Datensatzes von über 3 Millionen europäischen Unternehmen, der aus dem Amadeus-System des Unternehmens Bureau van Dijk Electronic Publishing GmbH stammt.
- Vorhersage von Unternehmenswachstum anhand von Jahresabschlussdaten
- Anwendung von Klassifikationsbäumen und -wäldern
- Analyse eines großen Datensatzes mit über 3 Millionen europäischen Unternehmen
- Bewertung der Performance verschiedener Modelle und Methoden
- Identifizierung wichtiger Kennzahlen für die Vorhersage von Unternehmenswachstum
Zusammenfassung der Kapitel
Kapitel 1 führt in die Thematik der Masterarbeit ein und beschreibt das Problem, Unternehmen mit außergewöhnlich starkem Wachstum zu identifizieren. Die Arbeit stellt die Relevanz dieser Fragestellung für verschiedene Stakeholder wie Banken, Investoren und Politiker heraus und erläutert die Vorteile der Verwendung von Jahresabschlussdaten für die Vorhersage von Unternehmenswachstum. Zudem werden die in der Arbeit verwendeten Methoden, Klassifikationsbäume und -wälder, vorgestellt und deren Vorteile gegenüber anderen Methoden wie neuronalen Netzen hervorgehoben.
Kapitel 2 befasst sich mit der Analyse von Jahresabschlussdaten und erläutert die Prinzipien der Schlüsselkennzahlenanalyse. Es werden die klassischen und modernen Ansätze der Schlüsselkennzahlenanalyse vorgestellt und deren Vor- und Nachteile diskutiert. Zudem werden die Grenzen der Analyse von Jahresabschlussdaten aufgezeigt, die durch die subjektive Interpretation von Kennzahlen, den Mangel an Informationen über strategische Ziele und die Verfügbarkeit von Daten entstehen.
Kapitel 3 beschreibt den in der Masterarbeit verwendeten Datensatz Amadeus, der von der Bureau van Dijk Electronic Publishing GmbH bereitgestellt wird. Der Datensatz enthält Informationen zu über 3 Millionen europäischen Unternehmen und umfasst sowohl börsennotierte als auch nicht börsennotierte Unternehmen. Die Struktur und der Inhalt des Datensatzes werden detailliert erläutert. Zudem werden die notwendigen Schritte zur Bereinigung des Datensatzes beschrieben, um ihn für die Analyse vorzubereiten.
Kapitel 4 widmet sich der Auswahl der Schlüsselkennzahlen, die für die Vorhersage von Unternehmenswachstum relevant sind. Es werden verschiedene Anforderungen an Schlüsselkennzahlen definiert, die für eine aussagekräftige Analyse notwendig sind. Anschließend werden die in der Masterarbeit verwendeten Schlüsselkennzahlen vorgestellt und deren Bedeutung für die Vorhersage von Unternehmenswachstum erläutert. Die Auswahl der Schlüsselkennzahlen erfolgt anhand von Literaturrecherchen und empirischen Beobachtungen.
Kapitel 5 beschäftigt sich mit der Anwendung von Klassifikationsbäumen und -wäldern zur Vorhersage von Unternehmenswachstum. Die Funktionsweise der beiden Methoden wird anhand eines einfachen Beispiels erläutert und die wichtigsten Eigenschaften der Algorithmen werden vorgestellt. Zudem wird die verwendete Software R und die entsprechenden Pakete RPART und randomForest beschrieben.
Kapitel 6 präsentiert die Ergebnisse der Klassifikation von Unternehmen anhand von Jahresabschlussdaten. Es werden verschiedene Modelle mit unterschiedlichen Methoden zur Behandlung von unausgeglichenen Klassen und fehlenden Werten erstellt und deren Performance anhand einer 10-fach-gekreuzten Validierung bewertet. Die Ergebnisse der Modelle werden anhand verschiedener Kennzahlen wie Genauigkeit, Präzision, Sensitivität, Spezifität und F-Score verglichen. Die wichtigsten Kennzahlen für die Vorhersage von Unternehmenswachstum werden identifiziert.
Kapitel 7 fasst die Ergebnisse der Masterarbeit zusammen und zieht eine kritische Bewertung der Ergebnisse. Es werden die wichtigsten Erkenntnisse der Arbeit hervorgehoben, die Grenzen der verwendeten Methoden aufgezeigt und mögliche zukünftige Forschungsrichtungen diskutiert.
Schlüsselwörter
Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Data Mining, Jahresabschlussanalyse, Unternehmenswachstum, Klassifikationsbäume, Random Forests, Amadeus-Datensatz, Schlüsselkennzahlen, Präzision, Sensitivität, Spezifität und F-Score.
- Citation du texte
- B. Sc. Jurij Weinblat (Auteur), 2014, Mining big annual statement datasets to predict highly lucrative companies using classification trees and forests, Munich, GRIN Verlag, https://www.grin.com/document/273792
-
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X.