Principles and methods of data mining are a widespread area, i.e. retail dealer use data mining tools to analyze the behavior of customers, computer hardware supplier use data mining to optimize their inventory. There are multiple possibilities of using data mining techniques, even in technical and scientific areas of applications. In regard of manyfold fields of application, there are no less than the number of techniques and methods for Data Mining in existence. Another field to apply Data Mining technique is the domain of simulation. Simulation is the computer-based approach of executing and experimenting of and with models. One aim of this thesis is to analyze data mining tools to see how capable they are solving data mining duties with respect to data calculated by simulation. Different data mining tools are analyzed, commercial tools like SPSS and SPSS Clementine as well as established and freely available tools like WEKA and the R-Project. These tools are analyzed in matters of their data mining functionalities, options to access different data sources, and their complexity of different data mining algorithms. Beyond the analysis of data mining tools with respect to functionality and simulation, envi-ronments for modeling and simulation are analyzed with respect to their possibilities of the utilization for data mining. These environments are the commercial tools Arena and Any-Logic and the freely available SeSam-Project. The effect of all processes of analyzing is a ranking of commonly used data mining tech-niques and concepts. The second part of the thesis occupies with the problem, which data mining method or technique is useful to analyze data provided by a simulation process. It also concerns in which way a method is suitable for the validation of a certain model. In the long run of this thesis the chosen data mining technique is applied to data generated by a simulation process of diffusion and reaction of substances.
Inhaltsverzeichnis
- 1. Einleitung
- 1.1 Data Mining
- 1.2 Simulation
- 1.3 Zusammenführung und Ziele
- 2. Simulation
- 2.1 Definitionen
- 2.1.1 Definition System
- 2.1.2 Definition Modell/Modellierung
- 2.1.3 Definition Simulation
- 2.2 Aufgabenfelder/Anwendungsbereiche
- 2.2.1 Vor- und Nachteile der Simulation
- 2.2.1.1 Vorteile der Simulation
- 2.2.1.2 Nachteile der Simulation
- 2.2.2 Simulationsarten
- 2.2.2.1 Kontinuierliche Simulation
- 2.2.2.2 Diskrete Simulation
- 2.2.2.3 Monte Carlo Simulation
- 2.2.1 Vor- und Nachteile der Simulation
- 2.3 James II
- 2.3.1 Hintergrund
- 2.3.2 Ziele
- 2.3.3 Einordnung und Entwicklungen
- 2.3.4 Entwicklungsstand
- 2.1 Definitionen
- 3. Data Mining
- 3.1 Definition
- 3.2 Ziel(e) des Data Mining
- 3.3 Data Mining als Prozess
- 3.4 Grundlegende Methoden
- 3.4.1 Klassenbildung
- 3.4.2 Assoziationen
- 3.4.3 Klassifizierung
- 3.4.4 Zeitreihenanalyse
- 3.5 Optimierung von Data Mining-Modellen und genetische Algorithmen
- 3.6 Einsatz von Data Mining in der Simulation
- 4. Vergleichskriterien
- 4.1 Evaluation der Analysearten
- 4.1.1 Klassenbildung
- 4.1.2 Assoziationen
- 4.1.3 Klassifizierung
- 4.1.4 Zeitreihenanalyse
- 4.2 Klassifizierung von Data Mining-Werkzeugen
- 4.2.1 Erweiterungen von DBMS
- 4.2.2 Data Mining-Suiten
- 4.2.3 Eigenständige Data Mining-Tools
- 4.3 Bewertung der Data Mining-Werkzeuge
- 4.3.1 Generelle Eigenschaften
- 4.3.2 Datenbankanbindung
- 4.3.3 Data Mining-Aufgaben
- 4.3.4 Data Mining-Algorithmen
- 4.4 Nutzung von Data Mining in konkreten Simulationsaufgaben
- 4.1 Evaluation der Analysearten
- 5. Analyse
- 5.1 Analyse Modellierungs- und Simulations-Umgebungen
- 5.1.1 Arena
- 5.1.1.1 Beurteilung der Data Mining-Funktionen
- 5.1.1.1.1 Externe Datenquellen
- 5.1.1.1.2 Analyse und Optimierung
- 5.1.1.1.3 Präsentation
- 5.1.1.1 Beurteilung der Data Mining-Funktionen
- 5.1.2 AnyLogic
- 5.1.2.1 Beurteilung der Data Mining-Funktionen
- 5.1.2.1.1 Externe Datenquellen
- 5.1.2.1.2 Analyse und Optimierung
- 5.1.2.1.3 Präsentation
- 5.1.2.1 Beurteilung der Data Mining-Funktionen
- 5.1.3 SeSam
- 5.1.3.1 Beurteilung der Data Mining-Funktionen
- 5.1.1.3.1 Externe Datenquellen
- 5.1.1.3.2 Analyse und Optimierung
- 5.1.1.3.3 Präsentation
- 5.1.3.1 Beurteilung der Data Mining-Funktionen
- 5.1.1 Arena
- 5.2 Analyse einer Bibliothek
- 5.2.1 WEKA
- 5.2.1.1 Generelle Eigenschaften
- 5.2.1.2 Datenbankanbindung
- 5.2.1.3 Data Mining-Aufgaben
- 5.2.1.4 Data Mining-Algorithmen
- 5.2.1 WEKA
- 5.3 Analyse eines Werkzeuges
- 5.3.1 SPSS
- 5.3.1.1 SPSS Basispaket („SPSS Base“)
- 5.3.1.1.1 Generelle Eigenschaften
- 5.3.1.1.2 Datenbankanbindung
- 5.3.1.1.3 Data Mining-Aufgaben
- 5.3.1.1.4 Data Mining-Algorithmen
- 5.3.1.2 SPSS Clementine
- 5.3.1.2.1 Generelle Eigenschaften
- 5.3.1.2.2 Datenbankanbindung
- 5.3.1.2.3 Data Mining-Aufgaben
- 5.3.1.2.4 Data Mining-Algorithmen
- 5.3.1.1 SPSS Basispaket („SPSS Base“)
- 5.3.2 R-Project/R
- 5.3.2.1 Generelle Eigenschaften
- 5.3.2.2 Datenbankanbindung
- 5.3.2.3 Data Mining-Aufgaben
- 5.3.2.4 Data Mining-Algorithmen
- 5.3.1 SPSS
- 5.1 Analyse Modellierungs- und Simulations-Umgebungen
- 6. Vergleich und Implementationsentscheidung
- 6.1 Analyse des zugrunde liegenden Datenmaterials (James II)
- 6.2 Abschließender Vergleich
- 6.2.1 Modellierungs- und Simulationsumgebungen
- 6.2.2 Werkzeuge
- 6.2.3 Bibliotheken
- 6.3 Ranking der Analysemethoden
- 6.4 Implementationsentscheidung
- 7. Implementierung
- 7.1 Zugrunde liegende Annahmen
- 7.2 Hilfsklassen
- 7.2.1 Chi-Quadrat-Berechnungen
- 7.2.2 Kendalls Tau
- 7.2.3 Lineare Korrelation nach Pearson
- 7.2.4 Kontingenztabellen
- 7.2.5 Student t-Test
- 7.2.6 Weitere Hilfsklassen
- 7.3 Klassen und Methoden des k-Means-Algorithmus
- 8. Auswertung von Simulationsdaten
- 8.1 Grundmodell
- 8.1.1 Vorausgesetztes Datenmaterial
- 8.1.2 Vorverarbeitung
- 8.2 Vorgaben
- 8.3 Ergebnisse
- 8.3.1 Cluster-Analyse mit SPSS
- 8.3.2 Cluster-Analyse mit dem in James II implementierten Algorithmus
- 8.4 Beurteilung des implementierten Algorithmus
- 8.1 Grundmodell
Zielsetzung und Themenschwerpunkte
Diese Bachelorarbeit untersucht die Anwendung von Data-Mining-Methoden zur Analyse von Simulationsergebnissen. Das Hauptziel ist die Bewertung der Eignung verschiedener Data-Mining-Werkzeuge und -Algorithmen für die Validierung von Simulationsmodellen, insbesondere im Kontext des Simulationsframeworks James II. Die Arbeit evaluiert verschiedene Ansätze und implementiert einen ausgewählten Algorithmus.
- Vergleich verschiedener Data-Mining-Werkzeuge hinsichtlich ihrer Funktionalität und Eignung für Simulationsdaten.
- Analyse der Leistungsfähigkeit verschiedener Data-Mining-Algorithmen (z.B. Clustering, Regression) bei der Auswertung von Simulationsdaten.
- Implementierung eines geeigneten Data-Mining-Algorithmus im James II Framework.
- Bewertung der Implementierung und deren Vergleich mit bestehenden Data-Mining-Tools.
- Anwendung des implementierten Algorithmus auf reale Simulationsdaten.
Zusammenfassung der Kapitel
1. Einleitung: Diese Einleitung führt in die Thematik der Bachelorarbeit ein, indem sie die Konzepte von Data Mining und Simulation beschreibt und deren Zusammenführung als Ziel der Arbeit benennt. Die Bedeutung von Data Mining für Unternehmen und die Herausforderungen bei der Analyse großer Datenmengen aus Simulationen werden hervorgehoben. Die Arbeit skizziert die zu verfolgenden Schritte: Analyse von Data-Mining-Werkzeugen, Auswahl und Implementierung eines Algorithmus sowie eine abschließende Simulationsstudie.
2. Simulation: Dieses Kapitel liefert eine umfassende Definition von Simulation, indem es die Begriffe System, Modell und Modellierung präzisiert und unterschiedliche Simulationsarten wie kontinuierliche, diskrete und Monte-Carlo-Simulationen beschreibt. Es werden die Vor- und Nachteile der Simulation erörtert und der detaillierte Hintergrund des in der Arbeit genutzten Simulationsframeworks James II erläutert, einschließlich seiner Ziele, seines Entwicklungsprozesses und seines aktuellen Entwicklungsstands.
3. Data Mining: Dieses Kapitel befasst sich ausführlich mit Data Mining, definiert den Begriff und beschreibt seine Ziele und den Prozessablauf. Es werden grundlegende Data-Mining-Methoden wie Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse erläutert und jeweils exemplarische Algorithmen vorgestellt. Der Einsatz von genetischen Algorithmen zur Modelloptimierung wird ebenfalls thematisiert, ebenso die Integration von Data Mining in den Simulationsprozess.
4. Vergleichskriterien: Kapitel 4 legt die Kriterien zur Evaluation der verschiedenen Data-Mining-Methoden und -Werkzeuge fest. Es werden Evaluationskriterien für Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse definiert und verschiedene Data-Mining-Werkzeuge nach ihrer Funktionalität, Datenbankanbindung, unterstützten Data-Mining-Aufgaben und Algorithmen kategorisiert und bewertet. Die Anwendung von Data Mining in verschiedenen, konkreten Simulationsbeispielen wird diskutiert.
5. Analyse: Dieses Kapitel analysiert verschiedene Modellierungs- und Simulationsumgebungen (Arena, AnyLogic, SeSam) sowie Data-Mining-Werkzeuge (WEKA, SPSS, SPSS Clementine, R) hinsichtlich ihrer Data-Mining-Funktionalitäten. Die Analyse betrachtet die Möglichkeiten zum Zugriff auf externe Datenquellen, die Analyse- und Optimierungsfunktionen sowie die Präsentationsmöglichkeiten der einzelnen Werkzeuge.
6. Vergleich und Implementationsentscheidung: Dieses Kapitel fasst die Ergebnisse der Analysen aus Kapitel 5 zusammen und vergleicht die untersuchten Modellierungs- und Simulationsumgebungen, Data-Mining-Werkzeuge und -Bibliotheken. Es erfolgt eine Bewertung verschiedener Analysemethoden, wie Varianzanalyse, Mehrfachregression, Clusteranalyse und Assoziationsregeln, im Hinblick auf ihre Eignung für die Validierung der Simulationsergebnisse. Die Wahl des k-Means-Algorithmus für die Implementierung wird begründet.
7. Implementierung: Kapitel 7 beschreibt die Implementierung des k-Means-Algorithmus im James II Framework, einschließlich der zugrundeliegenden Annahmen und der implementierten Hilfsklassen für statistische Berechnungen (Chi-Quadrat, Kendalls Tau, lineare Korrelation, Kontingenztabellen, t-Test, F-Test). Die Struktur und Funktionsweise der implementierten Klassen des k-Means-Algorithmus werden detailliert erläutert.
Häufig gestellte Fragen zur Bachelorarbeit: Anwendung von Data-Mining-Methoden zur Analyse von Simulationsergebnissen
Was ist das Hauptziel dieser Bachelorarbeit?
Das Hauptziel der Arbeit ist die Bewertung der Eignung verschiedener Data-Mining-Werkzeuge und -Algorithmen für die Validierung von Simulationsmodellen, insbesondere im Kontext des Simulationsframeworks James II. Die Arbeit evaluiert verschiedene Ansätze und implementiert einen ausgewählten Algorithmus.
Welche Data-Mining-Werkzeuge und -Algorithmen wurden untersucht?
Die Arbeit untersucht verschiedene Data-Mining-Werkzeuge wie WEKA, SPSS (inkl. SPSS Clementine) und R, sowie Modellierungs- und Simulationsumgebungen wie Arena, AnyLogic und SeSam. Betrachtete Algorithmen umfassen u.a. Clustering, Regression, Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse. Der k-Means-Algorithmus wurde implementiert.
Welche Simulationsarten werden in der Arbeit behandelt?
Die Arbeit beschreibt kontinuierliche, diskrete und Monte-Carlo-Simulationen. Der Fokus liegt auf dem Simulationsframework James II.
Welche grundlegenden Data-Mining-Methoden werden erläutert?
Die Arbeit erläutert Klassenbildung, Assoziationsanalyse, Klassifizierung und Zeitreihenanalyse. Der Einsatz von genetischen Algorithmen zur Modelloptimierung wird ebenfalls behandelt.
Wie wurde die Eignung der Data-Mining-Werkzeuge und -Algorithmen bewertet?
Die Bewertung erfolgte anhand von Kriterien wie Funktionalität, Datenbankanbindung, unterstützten Data-Mining-Aufgaben und Algorithmen. Die Analyse umfasste die Möglichkeiten zum Zugriff auf externe Datenquellen, die Analyse- und Optimierungsfunktionen sowie die Präsentationsmöglichkeiten der einzelnen Werkzeuge.
Welcher Algorithmus wurde implementiert und warum?
Der k-Means-Algorithmus wurde implementiert. Die Wahl wird im Kapitel 6 begründet, welches einen Vergleich der verschiedenen Analysemethoden (Varianzanalyse, Mehrfachregression, Clusteranalyse und Assoziationsregeln) im Hinblick auf ihre Eignung für die Validierung der Simulationsergebnisse enthält.
Wie wurde der implementierte Algorithmus evaluiert?
Die Evaluation des implementierten k-Means-Algorithmus erfolgte durch einen Vergleich mit den Ergebnissen von SPSS bei der Cluster-Analyse realer Simulationsdaten. Kapitel 8 beschreibt die Ergebnisse und die Beurteilung des implementierten Algorithmus.
Welche Hilfsklassen wurden für die Implementierung verwendet?
Die Implementierung umfasste Hilfsklassen für statistische Berechnungen wie Chi-Quadrat-Berechnungen, Kendalls Tau, lineare Korrelation nach Pearson, Kontingenztabellen, Student t-Test und weitere.
Welche konkreten Simulationsdaten wurden verwendet?
Die Arbeit verwendet Daten aus dem Simulationsframework James II (detailliert in Kapitel 2 beschrieben).
Welche Schlussfolgerungen zieht die Arbeit?
Die Arbeit zieht Schlussfolgerungen über die Eignung verschiedener Data-Mining-Werkzeuge und -Algorithmen für die Analyse von Simulationsdaten und liefert eine fundierte Implementationsentscheidung basierend auf dem Vergleich und der Evaluation der untersuchten Methoden.
- Citar trabajo
- B.Sc. Enrico Seib (Autor), 2008, Data Mining - Methoden in der Simulation, Múnich, GRIN Verlag, https://www.grin.com/document/114550