Im Rahmen dieser Bachelorthesis soll die Frage beantwortet werden, welche Themen besonders häufig von Gästen bei der Bewertung von touristischen Unterkünften, wie Hotels oder Ferienwohnungen, in der Bodenseeregion diskutiert werden.
Die Daten hierfür sollen von einer Webseite extrahiert werden. Dabei liegen sowohl positive als auch negative Bewertungen vor. Die Hauptaufgabenstellung liegt darin, die Daten durch unterschiedliche Verfahren der Unsupervised Topic Detection zu analysieren. Die Ergebnisse der verschiedenen Verfahren sollen anschließend diskutiert und miteinander verglichen werden. Dabei sollen Themen unterschiedlicher Granularität erkannt werden. Dies soll erreicht werden durch die Definition von Wertebereichen für die Anzahl an Themen, welche dann verschieden granulare Ebenen darstellen.
Die Ergebnisse über die Ebenen hinweg sollen zunächst pro Verfahren evaluiert und miteinander verglichen werden. Abschließend sollen die Verfahren auf Basis der erkannten Themen methodisch und semantisch miteinander verglichen werden, um für jede Ebene das am besten geeignete Verfahren zu identifizieren.
Inhaltsverzeichnis
- 1. Einleitung
- 1.1. Motivation und Problemstellung
- 1.2. Zielsetzung und Abgrenzung
- 1.3. Aufbau der Arbeit
- 2. Grundlagen
- 2.1. Tourismus in der Bodenseeregion
- 2.2. Data Mining
- 2.3. Text Mining
- 2.4. Unsupervised Topic Detection
- 3. Methodik
- 3.1. Datenextraktion - Web Crawling
- 3.1.1. Datenquelle
- 3.1.2. Datenextraktion
- 3.2. Datenanalyse - Unsupervised Topic Detection
- 3.2.1. Vorbereitung der Daten - Preprocessing
- 3.2.2. Latent Dirichlet Allocation (LDA)
- 3.2.3. Keyword Clustering
- 3.2.4. Hierarchical Clustering
- 4. Ergebnisse
- 4.1. Datenextraktion - Web Crawling
- 4.1.1. Erklärung des Datensatzes
- 4.1.2. Tabellarische Beschreibung der Attribute
- 4.2. Datenanalyse - Unsupervised Topic Detection
- 4.2.1. LDA
- 4.2.2. Keyword Clustering
- 4.2.3. Hierarchical Clustering
- 4.3. Vergleich der Ergebnisse
- 5. Schluss
- 5.1. Zusammenfassung
- 5.2. Ausblick
Zielsetzung und Themenschwerpunkte
Die vorliegende Bachelorarbeit befasst sich mit der Anwendung verschiedener Methoden der Unsupervised Topic Detection im Kontext von Kundenfeedback touristischer Betriebe in der Bodenseeregion. Ziel ist es, die unterschiedlichen Ansätze dieser Methoden zu vergleichen und deren Eignung für die Analyse von Kundenfeedback zu bewerten.
- Analyse von Kundenfeedback in der Tourismusbranche
- Anwendung von Data Mining und Text Mining Methoden
- Vergleich verschiedener Unsupervised Topic Detection Methoden
- Bewertung der Eignung der Methoden für die Analyse von Kundenfeedback
- Identifizierung von relevanten Themen und Aspekten in Kundenfeedback
Zusammenfassung der Kapitel
Die Arbeit beginnt mit einer Einleitung, die die Motivation und Problemstellung der Arbeit erläutert. Anschließend werden die Grundlagen des Tourismus in der Bodenseeregion, Data Mining, Text Mining und Unsupervised Topic Detection behandelt. In Kapitel 3 wird die Methodik der Arbeit vorgestellt, die die Datenextraktion durch Web Crawling, die Datenanalyse mit verschiedenen Unsupervised Topic Detection Methoden und den Vergleich der Ergebnisse umfasst. Kapitel 4 präsentiert die Ergebnisse der Datenanalyse, wobei die Ergebnisse der verschiedenen Methoden detailliert beschrieben und verglichen werden. Abschließend wird die Arbeit mit einer Zusammenfassung und einem Ausblick auf zukünftige Forschungsrichtungen beendet.
Schlüsselwörter
Die wichtigsten Schlüsselwörter der Arbeit sind: Unsupervised Topic Detection, Kundenfeedback, Tourismus, Bodenseeregion, Data Mining, Text Mining, LDA (Latent Dirichlet Allocation), Keyword Clustering, Hierarchical Clustering.
Häufig gestellte Fragen
Welche Forschungsfrage steht im Zentrum dieser Bachelorarbeit?
Die Arbeit untersucht, welche Themen Gäste bei Bewertungen von Unterkünften in der Bodenseeregion am häufigsten diskutieren und welches Verfahren der Unsupervised Topic Detection dafür am besten geeignet ist.
Welche Methoden der Topic Detection werden verglichen?
Es werden die Latent Dirichlet Allocation (LDA), Keyword Clustering und Hierarchical Clustering miteinander verglichen.
Woher stammen die analysierten Daten?
Die Daten wurden mittels Web Crawling von einer Webseite extrahiert, die positive und negative Bewertungen touristischer Betriebe der Bodenseeregion enthält.
Was bedeutet "Unsupervised" in diesem Zusammenhang?
Unsupervised bedeutet, dass die Algorithmen Themen in den Texten finden, ohne dass ihnen vorher Kategorien oder gelabelte Beispiele vorgegeben wurden.
Was ist das Ziel des Methodenvergleichs?
Ziel ist es, für verschiedene Granularitätsebenen (Anzahl der Themen) das jeweils methodisch und semantisch am besten geeignete Verfahren zu identifizieren.
- Arbeit zitieren
- Julia Drabsch (Autor:in), 2021, Vergleich unterschiedlicher Methoden der Unsupervised Topic Detection. Kundenfeedback touristischer Betriebe der Bodenseeregion, München, GRIN Verlag, https://www.grin.com/document/1175621