Die vorliegende Seminararbeit thematisiert einen Bereich der Informatik, genauer gesagt der Datenwissenschaft, der in dem letzten Jahrzehnt immer mehr an Bedeutung gewonnen und große Fortschritte erzielt hat – Text Mining.
Im Zeitalter Big Data nimmt das Aufkommen von digitalen Informationen enorm zu, das aufgrund der günstigen und unbegrenzt verfügbaren Speicherung ermöglicht wird.
Experten gehen jedoch davon aus, dass bis zu 80 Prozent aller Unternehmensinformationen in Form unstrukturierter Textdokumente gespeichert sind. So liegen Kundenrezensionen, Patentanmeldungen oder Geschäftsberichte unstrukturiert vor. Mithilfe von linguistischen, statischen und mathematischen Verfahren sollen durch das Text Mining gezielt Muster und Strukturen gefunden und Informationen extrahiert werden. Im Vordergrund der folgenden Seminararbeit stehen die im Kontext Text Mining möglichen Analysemethoden Textklassifikation und Textclustering und mögliche Visualisierungstechniken. Ziel der Arbeit ist es, den Einsatz von Visualisierungen zu veranschaulichen und den Nutzen hervorzuheben.
Um einen ersten Einblick in die Thematik zu bekommen, werden im ersten Teil der Arbeit die Begriffe Text Mining und Informationsvisualisierung definiert und eingeordnet. Dabei liegt das Hauptaugenmerkt einerseits auf den typischen Prozessschritten des Text Mining und auf die Abgrenzung vom Text Mining zum Data Mining, andererseits auf den positiven Zugewinn durch die visuelle Wahrnehmung von Informationen und deren Strukturen und die Unterscheidung von Informationsvisualisierung und wissenschaftlichen Visualisierungen. Anschließend werden zwei Methoden innerhalb des Text Mining vorgestellt: Textklassifikation, welches die Sentimentanalyse beinhaltet, und Textclustering, das das Topic Modeling einschließt. Weiterhin werden vier Visualisierungstechniken vorgestellt, wovon die letzten beiden jeweils für die Sentimentanalyse und für das Topic Modeling vorgesehen sind. Abschließend werden im Resümee die Ergebnisse zusammengefasst.
Inhaltsverzeichnis
- 1. Einleitung
- 2. Hauptteil
- 2.1. Begriffliche Klärungen
- 2.1.1. Text Mining
- 2.1.2. Informationsvisualisierung
- 2.2. Text Mining Methoden
- 2.2.1. Textklassifikation: Sentimentanalyse
- 2.2.2. Textclustering: Topic Modeling
- 2.3. Visualisierungstechniken
- 2.3.1. Word cloud: Inhalt auf Wortlevel
- 2.3.2. Word Tree: Stichwort im Kontext
- 2.3.3. Emotionen im Zeitverlauf
- 2.3.4. Topic Map: interaktive Graphen-basierte Topic Cloud
- 3. Resümee und Ausblick
- 4. Literaturverzeichnis
Zielsetzung und Themenschwerpunkte
Die Seminararbeit befasst sich mit dem Bereich Text Mining, einem wichtigen Teilgebiet der Datenwissenschaft, das in den letzten Jahren zunehmend an Bedeutung gewonnen hat. Die Arbeit analysiert verschiedene Methoden des Text Mining, insbesondere Textklassifikation und Textclustering, und untersucht den Einsatz von Visualisierungstechniken im Kontext dieser Methoden. Das Ziel der Arbeit ist es, die Bedeutung von Visualisierungen im Text Mining aufzuzeigen und deren Nutzen zu verdeutlichen.
- Definition und Einordnung von Text Mining und Informationsvisualisierung
- Analyse verschiedener Text Mining Methoden, darunter Textklassifikation und Textclustering
- Vorstellung von Visualisierungstechniken, die im Kontext von Text Mining eingesetzt werden können
- Veranschaulichung des Nutzens von Visualisierungstechniken im Text Mining
- Zusammenfassende Darstellung der Ergebnisse im Resümee
Zusammenfassung der Kapitel
Die Einleitung gibt eine Einführung in das Thema Text Mining und erläutert dessen Bedeutung im Zeitalter von Big Data. Sie beleuchtet die wachsende Menge an unstrukturierten Textdaten und die Notwendigkeit, diese mithilfe von Text Mining zu analysieren, um Muster und Informationen zu extrahieren. Die Einleitung stellt außerdem die beiden Schwerpunktthemen der Arbeit vor: Textklassifikation und Textclustering, sowie die Analyse von Visualisierungstechniken im Kontext dieser Methoden.
Der Hauptteil der Arbeit widmet sich zunächst der Klärung der Begriffe Text Mining und Informationsvisualisierung. Es werden die typischen Prozessschritte des Text Mining beschrieben und eine Abgrenzung zum Data Mining vorgenommen. Im zweiten Teil werden die beiden Text Mining Methoden Textklassifikation und Textclustering vorgestellt, wobei insbesondere die Sentimentanalyse und das Topic Modeling betrachtet werden. Der dritte Teil des Hauptteils behandelt verschiedene Visualisierungstechniken, wobei die ersten beiden, Word cloud und Word Tree, allgemein auf Wortlevel und Kontext basieren. Die folgenden beiden, Emotionen im Zeitverlauf und Topic Map, sind speziell für die Sentimentanalyse und das Topic Modeling konzipiert.
Das Resümee fasst die Ergebnisse der Arbeit zusammen und gibt einen Ausblick auf zukünftige Entwicklungen und Forschungsgebiete im Bereich Text Mining und Visualisierung.
Schlüsselwörter
Die zentralen Schlüsselwörter der Arbeit sind Text Mining, Informationsvisualisierung, Textklassifikation, Textclustering, Sentimentanalyse, Topic Modeling, Word cloud, Word Tree, Emotionen im Zeitverlauf, Topic Map, Big Data, Datenwissenschaft, Analysemethoden, Visualisierungstechniken.
- Quote paper
- Anonym (Author), 2019, Text Mining und mögliche Visualisierungstechniken. Textklassifikation und Textclustering, Munich, GRIN Verlag, https://www.grin.com/document/469053