Im Rahmen dieser Bachelorthesis soll die Frage beantwortet werden, welche Themen besonders häufig von Gästen bei der Bewertung von touristischen Unterkünften, wie Hotels oder Ferienwohnungen, in der Bodenseeregion diskutiert werden.

Die Daten hierfür sollen von einer Webseite extrahiert werden. Dabei liegen sowohl positive als auch negative Bewertungen vor. Die Hauptaufgabenstellung liegt darin, die Daten durch unterschiedliche Verfahren der Unsupervised Topic Detection zu analysieren. Die Ergebnisse der verschiedenen Verfahren sollen anschließend diskutiert und miteinander verglichen werden. Dabei sollen Themen unterschiedlicher Granularität erkannt werden. Dies soll erreicht werden durch die Definition von Wertebereichen für die Anzahl an Themen, welche dann verschieden granulare Ebenen darstellen.

Die Ergebnisse über die Ebenen hinweg sollen zunächst pro Verfahren evaluiert und miteinander verglichen werden. Abschließend sollen die Verfahren auf Basis der erkannten Themen methodisch und semantisch miteinander verglichen werden, um für jede Ebene das am besten geeignete Verfahren zu identifizieren.

Leseprobe

Inhaltsverzeichnis

1. Einleitung

1.1. Motivation und Problemstellung
1.2. Zielsetzung und Abgrenzung
1.3. Aufbau der Arbeit

2. Grundlagen

2.1. Tourismus in der Bodenseeregion
2.2. Data Mining
2.3. Text Mining
2.4. Unsupervised Topic Detection

3. Methodik

3.1. Datenextraktion - Web Crawling

3.1.1. Datenquelle
3.1.2. Datenextraktion

3.2. Datenanalyse - Unsupervised Topic Detection

3.2.1. Vorbereitung der Daten - Preprocessing
3.2.2. Latent Dirichlet Allocation (LDA)
3.2.3. Keyword Clustering
3.2.4. Hierarchical Clustering

4. Ergebnisse

4.1. Datenextraktion - Web Crawling

4.1.1. Erklärung des Datensatzes
4.1.2. Tabellarische Beschreibung der Attribute

4.2. Datenanalyse - Unsupervised Topic Detection

4.2.1. LDA
4.2.2. Keyword Clustering
4.2.3. Hierarchical Clustering

4.3. Vergleich der Ergebnisse

5. Schluss

5.1. Zusammenfassung
5.2. Ausblick

Zielsetzung und Themenschwerpunkte

Die vorliegende Bachelorarbeit befasst sich mit der Anwendung verschiedener Methoden der Unsupervised Topic Detection im Kontext von Kundenfeedback touristischer Betriebe in der Bodenseeregion. Ziel ist es, die unterschiedlichen Ansätze dieser Methoden zu vergleichen und deren Eignung für die Analyse von Kundenfeedback zu bewerten.

Analyse von Kundenfeedback in der Tourismusbranche
Anwendung von Data Mining und Text Mining Methoden
Vergleich verschiedener Unsupervised Topic Detection Methoden
Bewertung der Eignung der Methoden für die Analyse von Kundenfeedback
Identifizierung von relevanten Themen und Aspekten in Kundenfeedback

Zusammenfassung der Kapitel

Die Arbeit beginnt mit einer Einleitung, die die Motivation und Problemstellung der Arbeit erläutert. Anschließend werden die Grundlagen des Tourismus in der Bodenseeregion, Data Mining, Text Mining und Unsupervised Topic Detection behandelt. In Kapitel 3 wird die Methodik der Arbeit vorgestellt, die die Datenextraktion durch Web Crawling, die Datenanalyse mit verschiedenen Unsupervised Topic Detection Methoden und den Vergleich der Ergebnisse umfasst. Kapitel 4 präsentiert die Ergebnisse der Datenanalyse, wobei die Ergebnisse der verschiedenen Methoden detailliert beschrieben und verglichen werden. Abschließend wird die Arbeit mit einer Zusammenfassung und einem Ausblick auf zukünftige Forschungsrichtungen beendet.

Schlüsselwörter

Die wichtigsten Schlüsselwörter der Arbeit sind: Unsupervised Topic Detection, Kundenfeedback, Tourismus, Bodenseeregion, Data Mining, Text Mining, LDA (Latent Dirichlet Allocation), Keyword Clustering, Hierarchical Clustering.

Häufig gestellte Fragen

Welche Forschungsfrage steht im Zentrum dieser Bachelorarbeit?

Die Arbeit untersucht, welche Themen Gäste bei Bewertungen von Unterkünften in der Bodenseeregion am häufigsten diskutieren und welches Verfahren der Unsupervised Topic Detection dafür am besten geeignet ist.

Welche Methoden der Topic Detection werden verglichen?

Es werden die Latent Dirichlet Allocation (LDA), Keyword Clustering und Hierarchical Clustering miteinander verglichen.

Woher stammen die analysierten Daten?

Die Daten wurden mittels Web Crawling von einer Webseite extrahiert, die positive und negative Bewertungen touristischer Betriebe der Bodenseeregion enthält.

Was bedeutet "Unsupervised" in diesem Zusammenhang?

Unsupervised bedeutet, dass die Algorithmen Themen in den Texten finden, ohne dass ihnen vorher Kategorien oder gelabelte Beispiele vorgegeben wurden.

Was ist das Ziel des Methodenvergleichs?

Ziel ist es, für verschiedene Granularitätsebenen (Anzahl der Themen) das jeweils methodisch und semantisch am besten geeignete Verfahren zu identifizieren.

Ende der Leseprobe aus 90 Seiten - nach oben

Details

Titel: Vergleich unterschiedlicher Methoden der Unsupervised Topic Detection. Kundenfeedback touristischer Betriebe der Bodenseeregion
Hochschule: Hochschule Ravensburg-Weingarten
Note: 1,3
Autor: Julia Drabsch (Autor:in)
Erscheinungsjahr: 2021
Seiten: 90
Katalognummer: V1175621
ISBN (eBook): 9783346610201
ISBN (Buch): 9783346610218
Sprache: Deutsch
Schlagworte: Business Intelligence Data Mining Text Mining Topic Detection RapidMiner Tourismus UGC Web Mining Scrapy Web Crawling
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Julia Drabsch (Autor:in), 2021, Vergleich unterschiedlicher Methoden der Unsupervised Topic Detection. Kundenfeedback touristischer Betriebe der Bodenseeregion, München, GRIN Verlag, https://www.grin.com/document/1175621

Vergleich unterschiedlicher Methoden der Unsupervised Topic Detection. Kundenfeedback touristischer Betriebe der Bodenseeregion