Schwerpunkt der Ausarbeitung ist die Kategorisierung von E-Mail-Eingängen in einem CRM-System mit Hilfe von Text Mining Analyseverfahren. Dabei sollen gegebene Nachrichtenmuster stichprobenartig auf natürlich sprachige Verarbeitungsmethoden und Klassifizierungsalgorithmen angewendet werden. Zudem sollen die angewendeten Klassifizierungsalgorithmen, anhand ihrer Genauigkeit bei steigender Anzahl benötigter Trainingsdaten, gegenübergestellt werden. Auch die Übereinstimmung zwischen erwarteten und ermittelten Kategorien sollen bei der Bewertung der Qualität, bezogen auf die Anwendbarkeit der Algorithmen für die Problemstellung, betrachtet werden. Abschließend soll anhand von Nachrichten mit mehreren potenziellen Kategorien geprüft werden, welche Algorithmen besser zur Anwendung verrauschter Daten geeignet sind. Als Analysewerkzeug soll ein entsprechender Prototyp implementiert werden, welcher den praktischen Teil dieser Ausarbeitung darstellt.
Inhaltsverzeichnis
- 1 Einführung
- 1.1 Motivation und Problembeschreibung
- 1.2 Zielsetzung
- 1.3 Ansatz
- 2 Stand von Wissenschaft und Technik
- 2.1 Text Mining
- 2.2 Natural Language Processing
- 2.2.1 Grundlegende Textbereinigung
- 2.2.2 Tokenisierung
- 2.2.3 Stemming
- 2.2.4 Stoppwort Entfernung
- 2.2.5 TF-IDF-Gewichtung
- 2.3 Textklassifizierung
- 2.3.1 Der naive Bayes-Klassifikator nach Gauß
- 2.3.2 Die lineare Support Vector Maschine
- 2.4 Frameworks und Bibliotheken
- 2.4.1 Scikit-Learn
- 2.4.2 Natural Language Toolkit
- 2.4.3 NumPy
- 2.4.4 Apache OFBiz
- 2.4.5 Flask
- 2.4.6 Chart.Js
- 3 Technische Umsetzung
- 3.1 Anforderungen
- 3.1.1 Nichtfunktionale Anforderungen
- 3.1.2 Funktionale Anforderungen
- 3.2 Konzept
- 3.2.1 Kriterien und Auswahl der Frameworks
- 3.2.2 Architektur
- 3.2.3 Beschreibung der Trainingsdaten
- 3.2.4 Vorverarbeitung der Daten
- 3.3 Implementierung
- 3.3.1 Backend
- 3.3.2 Frontend
- 3.1 Anforderungen
- 4 Evaluation
- 4.1 Teststrategie
- 4.2 Klassifikation gegebener Nachrichtenmuster
- 4.3 Vergleich der Klassifikatoren
- 4.3.1 Lernkurven
- 4.3.2 Konfusionsmatrizen
- 4.3.3 Anwendung verrauschter Daten
- 4.4 Resultate und Diskussion
Zielsetzung und Themenschwerpunkte
Diese Bachelor-Thesis befasst sich mit der E-Mail-Klassifizierung in einem CRM-System anhand von Text Mining Analyseverfahren. Ziel ist die Entwicklung eines Prototypen, der die automatische Kategorisierung von E-Mails ermöglicht.
- Text Mining und Natural Language Processing
- Textklassifizierung mit Machine Learning
- Entwicklung eines Prototypen mit Frameworks und Bibliotheken
- Evaluation und Vergleich verschiedener Klassifikatoren
- Diskussion der Ergebnisse und zukünftige Entwicklungsmöglichkeiten
Zusammenfassung der Kapitel
Die Einleitung stellt die Motivation und Problembeschreibung der Arbeit dar und beschreibt die Zielsetzung und den Ansatz der Forschung. Kapitel 2 behandelt den Stand von Wissenschaft und Technik mit Fokus auf Text Mining, Natural Language Processing, Textklassifizierung und relevanten Frameworks und Bibliotheken. Kapitel 3 widmet sich der technischen Umsetzung des Prototypen, einschließlich der Anforderungen, des Konzepts und der Implementierung. Kapitel 4 beinhaltet die Evaluation des Prototypen, die Teststrategie und die Analyse der Ergebnisse.
Schlüsselwörter
E-Mail Klassifizierung, CRM-System, Text Mining, Natural Language Processing, Machine Learning, Klassifikatoren, Frameworks, Bibliotheken, Evaluation, Prototyp, Prototyping, Analyse, Datenvorverarbeitung, Datenanalyse, Konfusionsmatrizen, Lernkurven, Resultate, Diskussion.
- Quote paper
- Robin Wilken (Author), 2019, E-Mail Klassifizierung in einem CRM-System anhand von Text Mining Analyseverfahren, Munich, GRIN Verlag, https://www.grin.com/document/535721