Speziell in der Versicherungsbranche gibt es immer noch eine große Lücke zwischen dem unternehmenspolitischen Anspruch der Unternehmen und dem von der Öffentlichkeit wahrgenommenen Bild. Versicherungsunternehmen haben einen latent schlechten Ruf. Serviceerfahrungen, die Kunden in anderen Branchen gemacht haben, übertragen sie auf die Versicherungsbranche. Auf diese Weise entsteht eine hohe Erwartungshaltung hinsichtlich Service und Qualität. Durch die zunehmende Digitalisierung erwarten Kunden auch eine Ansprache über elektronische und soziale Medien.
Der Großteil der Versicherungsunternehmen ist aus diesem Grund auf Social Media-Plattformen präsent. Potentielle Kunden informieren sich über Fakten und Meinungen zu bestimmten Produkten und Leistungen. Personen, die bereits Kunden sind, äußern sich zu ihren Erfahrungen, die mit dem Versicherungsunternehmen gemacht wurden. Diese können zuweilen hochemotional sein, wenn beispielsweise die Existenz des Kunden durch Leistungsverweigerungen des Versicherungsunternehmens bedroht ist.
Im Extremfall können sich aus solchen Äußerungen regelrechte Shitstorms entwickeln, wenn eine genügend große Öffentlichkeit Anteil nimmt. Häufig ist es schwierig zu unterscheiden, ob es sich bei den Äußerungen um Fakten und damit um nachweisbare Tatsachen oder um subjektive Meinungen handelt.
Gerade in der Versicherungsbranche werden viele subjektiv empfundene Meinungen wie „zu teuer“ oder „schlechter Service“ geäußert. Wenige Feedbacks beziehen sich auf tatsächliche Fakten wie Produkteigenschaften. Unternehmen sind durch geäußerte Feedbacks auf Social Media-Plattformen nicht mehr auf traditionelle Feedbacks. Die Masse der täglichen Posts stellt jedoch eine Herausforderung für Unternehmen dar, da eine manuelle Auswertung der Daten nicht stattfinden kann.
Das Opinion Mining stellt eine Methode dar, mit der Wissen aus Daten generiert werden kann. Dafür werden Meinungen aus dem Internet extrahiert, um Stimmungsanalysen zu einzelnen Produkten oder ganzen Unternehmen zu erstellen.
Ziel dieser Arbeit ist es, die geschilderte Problemstellung für ein ausgewähltes Versicherungsunternehmen näher zu betrachten. Dafür sollen Daten, die zu einem Versicherungsunternehmen veröffentlicht werden, automatisch aus dem Internet gefiltert und positive und negative Meinungen über das Unternehmen, seine Produkte und Services analysiert werden, um daraus Handlungsempfehlungen ableiten zu können.
Inhalt
ABKÜRZUNGSVERZEICHNIS
ABBILDUNGSVERZEICHNIS
TABELLENVERZEICHNIS
1 EINLEITUNG
1.1 PROBLEMSTELLUNG DER ARBEIT
1.2 DIE BEDEUTUNG DES KNOWLEDGE DISCOVERY PROCESS
1.3 GRUNDLAGEN DES SOCIAL MEDIA MININGS UND ANALYTICS
1.3.1 Data Mining und Text Mining zur Wissensentdeckung 5
1.3.2 Social Media als Datenquelle f ü r den Mining-Prozess 7
1.3.3 Opinion Mining und Sentiment Analysis im Zeitalter der digitalen Mundpropaganda
2 ZIELSETZUNG
2.1 VORGEHENSWEISE
2.2 SCHWERPUNKT DER ARBEIT
3 STAND DER FORSCHUNG
3.1 DURCHGEFÜHRTE LITERATURRECHERCHE
3.2 ERGEBNISSE DER LITERATURANALYSE
3.2.1 Die unterschiedlichen Knowledge Discovery Process- Modelle
3.2.2 Knowledge Discovery in sozialen Medien
3.2.3 Sentimentklassifizierung in sozialen Medien
3.2.4 Auswirkungen von WOM 25
3.3 DISKUSSION DER ERKENNTNISSE UND FRAGESTELLUNG
4 AUSWAHL EINES ANALYSE-TOOLS
4.1 ANFORDERUNGEN AN DAS ANALYSE-TOOL
4.1.1 Funktionale Anforderungen
4.1.2 Nicht-funktionale Anforderungen
4.1.3 Technische Anforderungen
4.2 AKTUELLER STAND DER TECHNIK
4.2.1 Social Media Monitoring-Tools
4.2.2 Social Media Analytics-Tools
4.2.3 Opinion Mining-Tools
4.3 VERGLEICH UND ENTSCHEIDUNG
5 EMPIRISCHE UNTERSUCHUNG
5.1 AUSWAHL EINES VORGEHENSMODELLS
5.2 PRAKTISCHE ANWENDUNG UND AUSWERTUNG
5.2.1 Business Understanding
5.2.2 Data Understanding
5.2.3 Data Preparation
5.2.4 Modeling
6 EVALUATION
6.1 DISKUSSION DER ERGEBNISSE
6.2 BEWERTUNG DER ANALYSEERGEBNISSE
6.3 BEWERTUNG DES ANALYSE-TOOLS
6.4 IMPLIKATIONEN FÜR FORSCHUNG UND PRAXIS
7 FAZIT UND AUSBLICK
LITERATUR- UND QUELLENVERZEICHNIS
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Abbildungsverzeichnis
Abbildung 1 Abgrenzung der Mining-Methoden
Abbildung 2 Stufenplan für die Durchführung der Untersuchung
Abbildung 3 Taxonomie der Arbeit
Abbildung 4 Das Neun-Schritte-Modell von Fayyad et al
Abbildung 5 Das CRISP-DM-Modell
Abbildung 6 Business Understanding
Abbildung 7 Facebook-Bewertungen der Allianz Versicherung (Stand 13.03.2016)
Abbildung 8 Sentimentanalyse über das gesamte Internet
Abbildung 9 Anzahl von positiven und negativen Beiträgen über den zeitlichen Verlauf (14. Januar bis 13. März 2016)
Abbildung 10 Zusammenhang zwischen positiven und negativen Beiträgen
Abbildung 11 Zusammenhang zwischen positiven und gesamten Beiträgen
Abbildung 12 Zusammenhang zwischen negativen und gesamten Beiträgen
Tabellenverzeichnis
Tabelle 1 Literaturquellen zum Stand der Forschung
Tabelle 2 Überblick über kostenlose Social Media Monitoring-Tools
Tabelle 3 Vergleich von ausgewählten Social Media Analytics-Tools hinsichtlich der Anforderungen
Tabelle 4 Vergleich von Facebook-Kennzahlen der Allianz und Telekom
Tabelle 5 Anzahl der Mentions anhand der aufgestellten Query
1 Einleitung
„People are going to talk about your product. “ (Bill Perry)1
Durch die Entwicklung von Web 2.0-Anwendungen ist die Datenflut enorm gestiegen. Jeden Tag werden Millionen von Nachrichten über soziale Medien geschrieben. Nach Fan und Gordon verbringen Inter- netnutzer mehr als 20% ihrer Online-Zeit auf Social Media-Seiten.2 Social Media-Nutzer schreiben über ihr Leben, teilen Meinungen zu ei- ner Vielzahl von Themen und diskutieren über unterschiedliche Sach- verhalte, die im Internet für jedermann frei zugänglich sind. Im Septem- ber 2015 kündigte Facebook an, ergänzende Interaktionsmöglichkeiten für Nutzer einzuführen. Seit Ende Februar 2016 können Facebook- Nutzer neben „gefällt mir“ weitere Facebook-Reaktionen für den Aus- druck von Mitgefühl, Wut, Freude etc. nutzen, um weitere Emotionen auszudrücken. Mit der neuen Funktion reagiert Facebook auf die häufig geäußerte Kritik, dass ein „gefällt mir“ bei bestimmten Beiträgen wie Katastrophen und Todesmeldungen nicht die passende Reaktion ist. Eine Analyse hat herausgefunden, dass 100 Millionen Menschen jede Woche eine „Social Action“ wie „saying, liking, disliking oder „commen- ting“ ausführen.3 Dabei enthalten ein Fünftel aller Tweets und ein Drittel aller Blogeinträge Informationen über Produkte und Marken.4 Diese können die Entscheidung von potentiellen Käufern enorm beeinflussen, denn 92% der Online-Kunden nutzen Bewertungen, um sich einen Überblick über die Meinungen anderer Kunden zu verschaffen und ihre eigenen Entscheidungen zu treffen.5 Diese online Word-of-Mouth (WOM) ist jedoch nicht nur für Verbraucher von Vorteil sondern auch für Unternehmen.6 Unternehmen können ihre Produkte und Services basierend auf Kundenfeedbacks verbessern.
Aus diesem Grund hat sich Sentiment Analysis zu einem der wichtigs- ten Analysethemen im Bereich Computer Science entwickelt. Inzwi- schen wurden über 7.000 Artikel zu dem Thema geschrieben. Hunderte von Startups haben Lösungen und statistische Analyseprogramme für die Analyse von Stimmungen entwickelt, um folgende Fragen zu beant- worten:7
- Was denken Menschen über unser Produkte/ unsere Services/ unser Unternehmen?
- Wie positiv oder negativ denken Menschen über unsere Produk- te/ unsere Services/ unser Unternehmen?
- Wie sollten unsere Produkte/ unsere Services/ unser Unterneh- men aus Kundensicht sein?8
Zudem bestätigt eine Vielzahl von Untersuchungen einen positiven Zusammenhang zwischen geposteten Meinungen auf Social Media-Seiten und dem Verkauf von Produkten.
1.1 Problemstellung der Arbeit
Speziell in der Versicherungsbranche gibt es immer noch eine große Lücke zwischen dem unternehmenspolitischen Anspruch der Unter- nehmen und dem von der Öffentlichkeit wahrgenommenen Bild. Versi- cherungsunternehmen haben einen latent schlechten Ruf, was in weiten Teilen der Gesellschaft weniger durch eigene Erfahrungen, sondern durch Gerüchte und gesellschaftlich akzeptierte Vorurteile geprägt ist. Serviceerfahrungen, die Kunden in anderen Branchen gemacht haben, übertragen sie auf die Versicherungsbranche. Auf diese Weise entsteht eine hohe Erwartungshaltung hinsichtlich Service und Qualität. Durch die zunehmende Digitalisierung und Internetisierung erwarten Kunden auch eine Ansprache über elektronische und soziale Medien. Der Groß- teil der Versicherungsunternehmen ist aus diesem Grund auf Social Media-Plattformen präsent. Potentielle Kunden informieren sich über Fakten und Meinungen zu bestimmten Produkten und Leistungen. Per- sonen, die bereits Kunden sind, äußern sich zu ihren Erfahrungen, die mit dem Versicherungsunternehmen gemacht wurden. Diese können zuweilen hochemotional sein, wenn beispielsweise die Existenz des Kunden durch Leistungsverweigerungen des Versicherungsunterneh- mens bedroht ist. Im Extremfall können sich aus solchen Äußerungen regelrechte Shitstorms entwickeln, wenn eine genügend große Öffent- lichkeit Anteil nimmt. Häufig ist es schwierig zu unterscheiden, ob es sich bei den Äußerungen um Fakten und damit um nachweisbare Tat- sachen oder um subjektive Meinungen handelt. Objektive Fakten sind in der Regel einfach zu erfassen, wohingegen subjektive Meinungen we- sentlich schwerer zu erfassen sind.9 Gerade in der Versicherungsbran- che werden viele subjektiv empfundene Meinungen wie „zu teuer“ oder „schlechter Service“ geäußert. Wenige Feedbacks beziehen sich auf tatsächliche Fakten wie Produkteigenschaften. Unternehmen sind durch geäußerte Feedbacks auf Social Media-Plattformen nicht mehr auf tradi- tionelle Feedbacks beispielsweise über Umfragen angewiesen. Die Masse der täglichen Posts und die daraus resultierende nicht über- schaubaren Menge an relevanten Daten stellt jedoch eine Herausforde- rung für Unternehmen dar, da eine manuelle Auswertung der Daten nicht stattfinden kann.
Das Opinion Mining stellt eine Methode dar, mit der Wissen aus Daten generiert werden kann. Dafür werden Meinungen aus dem Internet extrahiert, um Stimmungsanalysen zu einzelnen Produkten oder ganzen Unternehmen zu erstellen.10
Ziel dieser Arbeit ist es, die geschilderte Problemstellung für ein ausge- wähltes Versicherungsunternehmen näher zu betrachten. Dafür sollen Daten, die zu einem Versicherungsunternehmen veröffentlicht werden, automatisch aus dem Internet gefiltert und positive und negative Mei- nungen über das Unternehmen, seine Produkte und Services analysiert werden, um daraus Handlungsempfehlungen ableiten zu können.
1.2 Die Bedeutung des Knowledge Discovery Process
Die traditionelle Methode, Daten in Wissen umzuwandeln, auch Know- ledge Discovery genannt, basiert auf einer höchst manuellen Analyse und Interpretation. Nach Frawley et al. ist Knowledge Discovery „the nontrivial extraction of implicit, previously unknown, and potentially use- ful information from data.”11 Durch die Automatisierung von Unterneh- mensprozessen nahm die Datenflut enorm zu, sodass die manuelle Er- forschung von Daten so langsam und teuer wurde, dass die Arbeit nicht mehr von Menschen erledigt werden konnte und Überlegungen ge- macht wurden, wie Auswertungen automatisch stattfinden könnten.12 Selbst bei kleinen unkomplizierten Prozessen fallen Unmengen von Da- ten an. Aus diesem Grund entstand die Idee von Knowledge Discovery in Databases (KDD) als standardisierter und automatisierter Prozess.
Seit 1990 wurden unterschiedliche Knowledge Discovery Prozesse entwickelt.13 Die erste Modellstruktur wurde von Gregory Piatetsky- Shapiro geprägt und ergänzt das häufig als Synonym verwendete Data Mining um vorbereitende Untersuchungen und Transformationen. Der Knowledge Discovery Process (KDP) umfasst somit als Gesamtprozess auch die Vorbereitung der Daten sowie die Auswertung. Der Begriff „Knowledge Discovery in Databases“ wurde auf dem ersten KDD- Workshop im Jahr 1989 geprägt und sollte zeigen, dass Wissen das Endprodukt von einer datengetriebenen Untersuchung ist.14 Nach Fayyad ist KDD „the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable pattern in data.”15
Der KDD-Prozess ist ein interaktiver und sich wiederholender Prozess bestehend aus vielen Schritten mit unzähligen Entscheidungsmöglichkeiten durch den User.
1.3 Grundlagen des Social Media Minings und Analytics
Nachdem der Knowledge Discovery Process vorgestellt wurde, werden im folgenden Kapitel die notwendigen Grundlagen zum besseren Ver- ständnis der Arbeit beschrieben. Dazu werden die wichtigsten Begriff- lichkeiten rund um das Thema „Social Media Mining“ definiert und ab- gegrenzt. Das erste Unterkapitel beschäftigt sich mit den Definitionen von Data Mining und Text Mining sowie den Unterschieden der beiden Mining-Methoden. Das darauf folgende Kapitel widmet sich Social Me- dia und der Anwendung von Mining-Methoden auf unterschiedlichen Social Media-Plattformen. Den Abschluss des Grundlagenteils bildet eine kurze Einführung in das Opinion Mining auf Social Media-Seiten.
1.3.1 Data Mining und Text Mining zur Wissensentdeckung
Es existieren unterschiedliche Definitionen von Data Mining. So bedeu- tet „Data Mining“ ins Deutsche übersetzt „Datenmustererkennung“ und beschreibt „die Extraktion implizit vorhandenen, nicht trivialen und nütz- lichen Wissens aus großen, dynamischen, relativ komplex strukturierten Datenbeständen.“16
Häufig werden anstelle des Begriffs „Data Mining“ Begriffe wie „know- ledge extraction“, „information discovery“, „information harvesting“, „data archaeology“ oder „data pattern processing“ genutzt.17 Die Datenmus- tererkennung versucht, Muster in großen Datenmengen zu identifizie- ren, daraus Regeln abzuleiten, Unterschiede zu erkennen, beschrei- bende Attribute zu bestimmen, repräsentative Beispiele zu finden und Gleichungen zu rekonstruieren, die für numerische Variablen gelten.18 Für die Analyse bzw. der Klassifizierung der Daten werden unterschied- liche Methoden eingesetzt wie zum Beispiel Verfahren aus dem Bereich der Clusteranalyse, der Bayes-Statistik sowie des induktiven Lernens.
Ein weiterer Definitionsversuch stammt von Fayyad. Nach Fayyad ist Data Mining ein Schritt des KDD-Prozesses und verfolgt zwei Ziele bei der Wissensentdeckung:
- die Bestätigung (Verification)
- die Entdeckung (Discovery)
Ist das Ziel „Verification“, so wird mit Hilfe von Data Mining versucht, die aufgestellte Hypothese des Anwenders zu bestätigen. Bei „Discovery“ geht es hingegen um die Entdeckung von neuen Mustern.19
Wird Data Mining auf textuellen Daten angewendet, so spricht man von Text Mining, Text Analytics oder Knowledge Discovery from Text.20 Bei Text Mining handelt es sich um einen weitestgehend automatisierten Prozess der Wissensentdeckung in textuellen Daten.21 Zwar ähneln sich Data Mining und Text Mining hinsichtlich ihrer Verfahren, sie werden jedoch auf unterschiedliche Untersuchungsgegenstände angewendet: Data Mining wird auf stark strukturierte Daten angewendet, wohingegen Text Mining auf schwächer strukturierte Daten angewendet wird. So sind typische Anwendungsgebiete des Text Minings Web Mining und Sentiment Detection. „Web Mining is the application of data mining and knowledge discovery techniques to data collected in world wide web transactions.“22
Die Analyse von Informationen durch Data Mining kann auf unterschiedlichen Datenbanken durchgeführt werden. Social Media-Datenbanken stellen dabei ein relativ neues Gebiert dar und werden deshalb im Folgenden näher betrachtet.
1.3.2 Social Media als Datenquelle für den Mining- Prozess
“Social media is a group of internet-based applications that build on the ideological and technological foundation of Web 2.0, and that allow the creation and exchange of user generated content.”23 Nach Kaplan und Haenlein bezeichnet der Begriff „Social Media“ somit verschiedene in- ternetbasierte Medien wie Social Network-Seiten, Blogs, Microblogs oder Wikis.24 Im Gegensatz zu traditionellen Medien wie Zeitung, Fern- sehen und Radio sind neue Medien bzw. Anwendungen des Webs 2.0 dadurch gekennzeichnet, dass der Anwender Informationen und Erfah- rungen für andere Anwender teilt und diskutiert.25 Nach Högg et al. wird Web 2.0 wie folgt definiert: „Web 2.0 is defined as the philosophy of mu- tually maximizing collective intelligence and added value for each partic- ipant by formalized and dynamic information sharing and creation.“26
Dabei nutzen Social Media-Seiten unterschiedliche Datenformate wie Texte, Bilder und Videos. Vor allem den geposteten Texten kommt eine wichtige Rolle zuteil, da sie mit Hilfe spezieller Verfahren analysiert werden können. Auf Grund der unterschiedlichen Datenformate erfor- dern Social Media-Daten neue Data Mining-Techniken, welche user- generierte Inhalte untersuchen können.27 Die Datenmengen sind dabei so umfangreich, dass keine manuelle Auswertung der Daten durchge- führt werden kann.
Bei Social Media Mining bzw. Social Media Analytics handelt es sich um Data Mining auf Daten von Social Media-Plattformen. Zafarani definiert Social Media Mining folgendermaßen: „Social Media Mining is the pro- cess of representing, analyzing, and extracting actionable patterns from social media data.“28 Die Schlüsseltechniken von Social Media Mining gehen über Text Mining hinaus und beinhalten Techniken wie Opinion Mining, Sentiment Analysis, Topic Modeling, Social Network Analysis, Trend Analysis und Visual Analytics.
Im Zusammenhang mit Social Media Analytics tritt häufig auch der Be- griff „Social Media Monitoring“ auf. Nach Rauschnabel bezeichnet Soci- al Media Monitoring „die systematische, kontinuierliche und themenspe- zifische Suche, Erhebung, Aufbereitung, Analyse und Interpretation aus sozialen Medien zu managementrelevanten Themen.“29 Im Gegensatz zu Social Media Analytics beschäftigt sich Social Media Monitoring mit der Analyse von allen Inhalten des Social Webs, wohingegen sich Soci- al Media Analytics mit der unternehmenseigenen Kommunikation be- schäftigt.30 Beide Verfahren haben gemeinsam, dass sie Daten von Social Media-Seiten erheben. Unterschiedlich sind jedoch die Daten- formate: Social Media Monitoring analysiert Texte in Foren, Blogs und Kommentaren auf Social Media-Plattformen, wohingegen Social Media Analytics Interaktionen oder Likes analysiert.31 In dieser Arbeit wird häu- fig nicht zwischen den Begriffen Social Media Analytics und Social Me- dia Monitoring in der zuvor beschriebenen Form unterschieden. Der Begriff „Social Media Analytics“ wird häufig als Oberbegriff für die Analyse von Social Media-Daten verwendet. Häufig wird der Begriff „Social Media Analytics“ verwendet, obwohl streng genommen Social Media Monitoring gemeint ist.
1.3.3 Opinion Mining und Sentiment Analysis im Zeitalter der digitalen Mundpropaganda
Inzwischen spielt digitale Mundpropaganda bzw. digitale Mund-zu- Mund-Propaganda (WOM oder eWOM) auf sozialen Medien eine wich- tige Rolle, da sie einen großen Einfluss auf die Kaufentscheidung von Konsumenten haben kann.32 Anwendungen des Webs 2.0 wie Social Network-Seiten, Blogs, Microblogs oder Foren sind ideale Plattformen, um Kontakte zu knüpfen, Informationen zu sammeln oder zu teilen.
Im Marketing wird WOM als eine informelle, wertende Meinungsäußerung über Marken, Produkte, Services und Unternehmen zwischen Konsumenten verstanden.33 Rezensionen in Form von Erfahrungsberichten und Produktbewertungen auf Social Media-Plattformen erfreuen sich großer Beliebtheit und Versprechen mehr Glaubwürdigkeit als klassische Werbeversprechen von Unternehmen.34
Um speziell Meinungen auf Social Media-Seiten zu analysieren wurden Mining-Methoden wie das Opinion Mining entwickelt, welche die Extrak- tion von Meinungen aus Texten erlaubt. Aus diesem Grund wird Opinion Mining häufig auch als Erweiterung des Text Minings gesehen. Nach Feldman „is [sentiment analysis or opinion mining] defined as the task of finding the opinions of authors about specific entities.”35 Mit Hilfe von Opinion Mining lassen sich wertvolle Informationen über Meinungen von Kunden über Produkte, Dienstleistungen und Unternehmen liefern, wel- che nützliche Informationen für Marketing und Vertrieb sind. Nach Liu wird Opinion Mining häufig auch Sentiment Analysis genannt. Es beschreibt die „Extraktion von Attributen und Komponenten eines kommentierten Objekts; die Extraktion erfolgt dabei aus Textdokumentationen, die positive, negative oder neutrale Beiträge über Objekte enthalten.“36 Es wird unterschieden zwischen drei Bereichen des Opinion Minings mit unterschiedlichen Aufgabenstellungen:37
- Sentiment classification: zur Analyse einer Aussage auf Doku- mentenebene und Einstufung einer Aussage in positiv, negativ oder neutral
- Feature-based opinion mining: satzbasierte Identifikation von Ei- genschaften eines Objekts zur Einstufung der Eigenschaften als positiv oder negativ
- Comparative sentence and relation mining: Vergleich von Objek- ten und Eigenschaften sowie Identifikation des präferierten Ob- jekts
Im Rahmen der Sentiment Analysis können Techniken des Natural Language Processings (NLP) eingesetzt werden, um Wissen über die natürliche Sprache mit in die Entscheidung einfließen zu lassen.38 Ins Deutsche übersetzt, bedeutet NLP „Computerlinguistik” und beschreibt nach Joshi „the study of mathematical and computational modeling of various aspects of language and the development of a wide range of systems. “39 NLP verknüpft somit Erkenntnisse aus der Linguistik mit den neuesten Methoden aus der Computerwissenschaft und der künst- lichen Intelligenz. Aufbauend auf statistischem Machine Learning wer- den Algorithmen erstellt, sodass Computer bzw. Anwendungen eigen- ständig Probleme erkennen und neue Problemfelder lösen können. Es wird somit nicht versucht, für jedes Problem eine Lösung zu finden, sondern es werden allgemeine Muster entwickelt, mit denen individuelle Fragestellungen bearbeitet werden können.40
Eine Übersicht über die einzelnen Mining-Methoden gibt Abbildung 1.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1 Abgrenzung der Mining-Methoden
2 Zielsetzung
2.1 Vorgehensweise
Zu Beginn der wissenschaftlichen Arbeit erfolgte in Kapitel 1.2 ff. eine kurze Einführung in die grundlegenden Begrifflichkeiten der Arbeit, um einen Überblick über den Themenbereich zu geben. Dafür wurde der Knowledge Discovery Process vorgestellt, der zeigt, wie Wissen aus Daten entwickelt werden kann. Außerdem wurden die Begriffe „Data Mining“ und „Text Mining“ definiert sowie „Social Media Mining“ und „O- pinion Mining“.
Anschließend folgt nun in Kapitel 3 der aktuelle Stand der Forschung. Dafür wird die für diese Arbeit durchgeführte Literaturrecherche sowie die Ergebnisse der Literaturrecherche vorgestellt. Den Abschluss von Kapitel 3 bilden die Diskussion der gewonnenen Erkenntnisse mit der Vorstellung der Forschungslücken und den daraus abgeleiteten For- schungsfragen und Hypothesen, die im Rahmen dieser Arbeit unter- sucht werden sollen.
Im Rahmen von Kapitel 4 werden die funktionalen, nicht-funktionalen und technischen Anforderungen eines Social Media Analytics-Tools definiert. Im Anschluss erfolgt eine Auswahl an Tools, die hinsichtlich der Anforderungen gegenübergestellt und geprüft werden, sodass anschließend eine Entscheidung für ein Social Media Analytics- bzw. Social Media Monitoring-Tool getroffen und mit dem die darauf folgende Untersuchung durchgeführt werden kann.
Kapitel 5 bildet mit dem empirischen Teil den Schwerpunkt der Arbeit und dient der Beantwortung der aufgestellten Forschungsfragen. Dafür wird ein Knowledge Discovery Process-Modell praktisch angewendet. Es werden zunächst mit Hilfe eines Analyse-Tools Social Media-Daten von unterschiedlichen Social Media-Plattformen eines Versicherungsun- ternehmens gesammelt, strukturiert und bereinigt. Abhängig von den gewonnenen Ergebnissen findet eine Entscheidung darüber statt, ob eine statistische Analyse sinnvoll ist.
Anschließend werden die Ergebnisse der Untersuchung vorgestellt und diskutiert sowie das Analyse-Tool bewertet. Desweiteren werden Hand- lungsbedarf und daraufhin Handlungsempfehlungen aufgezeigt (Kapitel 6).
Den Abschluss der Arbeit bildet Kapitel 7 mit einer Zusammenfassung der gewonnenen Erkenntnisse und einem Ausblick.
2.2 Schwerpunkt der Arbeit
Der Schwerpunkt der Arbeit liegt auf der praktischen Anwendung des Knowledge Discovery Process und damit auf der in Kapitel 5 beschrie- benen Untersuchung. Ziel ist es, im Rahmen einer praktischen Evaluati- on Daten von Social Media-Seiten aus der Versicherungsbranche im Hinblick auf Knowledge Discovery in Databases zu untersuchen. Im Rahmen der Knowledge Discovery soll der Einfluss von Social Media- Beiträgen auf den Verkauf von Versicherungen analysiert werden. Die Untersuchung lässt sich in vier Schritte zusammenfassen (siehe Abbil- dung 2), die ebenfalls im Neun-Schritte-Modell von Fayyad sowie im Sechs-Schritte-Modell CRISP-DM wiederzufinden sind.
In einem ersten Schritt werden die Ziele und Anforderungen definiert, die mit der Untersuchung erfüllt werden sollen. Dafür muss u.a. die Fra- ge geklärt werden, welcher Nutzen aus dem Monitoring gezogen und welche Marken, Produkte oder Themen analysiert werden sollen.
In einem zweiten Schritt werden ein oder mehrere Tools ausgewählt, mit denen erste Basis-Tests durchgeführt werden, um sich einen Überblick über die Funktionalitäten und die Usability der einzelnen Tools zu ver- schaffen. Danach findet die Datensammlung statt. Dafür werden Such- anfragen sowie die zu untersuchenden Social Media-Kanäle im Tool aufgesetzt.
In einem letzten Schritt findet die Zusammenführung und Analyse der gesammelten Daten statt. Relevante Daten werden gespeichert, ggf. bereinigt und aufbereitet. Im Anschluss werden Analysen zur Beantwortung der Forschungsfragen durchgeführt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2 Stufenplan für die Durchführung der Untersuchung
3 Stand der Forschung
Im folgenden Kapitel wird der aktuelle Stand der Forschung vorgestellt. Dafür wird zunächst beschrieben, wie die Literaturrecherche durchgeführt wurde. Im Anschluss folgen die Ergebnisse der Literaturanalyse sowie eine Diskussion der Erkenntnisse mit der Vorstellung der daraus abgeleiteten Fragestellungen und Thesen.
Abbildung 3 zeigt eine Taxonomie über das Themengebiet der Arbeit und erstellt einen systematischen Zusammenhang zwischen den ge- nannten Verfahren. Das gesamte Themengebiet ist so komplex, dass nicht alle Mining- und Analyse-Methoden im Detail betrachtet werden können. Die Arbeit beschränkt sich auf die grau hinterlegten Themen:
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3 Taxonomie der Arbeit
3.1 Durchgeführte Literaturrecherche
Folgende Suchdienste wurden für die Literaturrecherche genutzt:
- EHIS-Portal der FOM mit Zugriff auf die Ressourcen von BE- Press, Business Source Premier, CNKI, Emeral Springerlink
- Google Scholar
- Web of Science
- ScienceDirect (Elsevier)
- CiteSeer
- Statista
Eine erste Literaturrecherche fand am 19.09.2015 über das EHIS-Portal der FOM statt, um sich einen Überblick über das Themengebiet „Social Media Analytics“ zu verschaffen und um das Thema der Arbeit zu konkretisieren. Dafür wurde der Suchbegriff „knowledge discovery“ AND „social media“, beschränkt auf alle Artikel ab 2012, eingegeben. Die Suche ergab daraufhin 11.200 Treffer.
Bei der Recherche wurden auf den Literaturplattformen unterschiedliche Suchbegriffe und Suchbegriffkombinationen zu den in Tabelle 1 genannten Themengebieten verwendet:
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 1 Literaturquellen zum Stand der Forschung
Bei der Auswahl der Literatur wurde auf die Aktualität der Quellen ge- achtet. So sollten die Quellen zum aktuellen Stand der Forschung nicht älter als fünf Jahre sein, wenn möglich aus den Jahren 2014 und 2015. Die Grundlagenliteratur in Kapitel 1.2 und 1.3 ist hingegen wesentlich älter.
3.2 Ergebnisse der Literaturanalyse
Im Folgenden werden die Ergebnisse der Literaturanalyse vorgestellt. Dazu zählen die Vorstellung der wichtigsten Forschungsergebnisse und Modelle sowie die daraus abgeleiteten Forschungslücken und Hypothe- sen.
Als Leitartikel wurde der Artikel „Listening In on Social Media: A Joint Model of Sentiment and Venue Format Choice” ausgewählt, welcher im August 2014 im Journal of Marketing Research veröffentlicht wurde und sich mit einer ähnlichen Untersuchung beschäftigt wie diese Arbeit.
Zunächst werden im folgenden Kapitel die unterschiedlichen Vorge- hensmodelle des KDP als Vertiefung von Kapitel 1.2 dargestellt. Ein Schwerpunkt liegt dabei auf dem Neun-Schritte-Modell von Fayyad et al. und dem Sechs-Schritte-Modell CRISP-DM, welche das Ziel verfol- gen, Muster in großen Datenmengen zu extrahieren. Anschließend wird anhand von aktueller Literatur gezeigt, welche Herausforderungen bei der Analyse von Social Media-Seiten bestehen und welche Informationen aus Social Media-Daten insbesondere für Marketing und Vertrieb gewonnen werden können (Kapitel 3.2.2). Dabei spielen vor allem Beiträge mit positiven und negativen Stimmungen zu einem Produkt oder einer Marke eine wichtige Rolle (Kapitel 3.2.3), da diese das Verkaufsverhalten beeinflussen können (Kapitel 3.2.4).
3.2.1 Die unterschiedlichen Knowledge Discovery Process-Modelle
Für die Durchführung von KDD-Projekten wurden in den letzten Jahren im wissenschaftlichen und industriellen Umfeld einige Vorgehensmodel- le entwickelt.
Nach Cios et al. wird zwischen drei Knowledge Discovery ProcessModellen unterschieden:41
- Akademische Modelle
- Industrielle Modelle
- Hybride Modelle
Zu den akademischen Modellen gehören das weit verbreitete NeunSchritte-Modell von Fayyad et al. sowie das Acht-Schritte-Modell von Anand und Buchner aus dem Jahr 1998.42 Das Vorgehensmodell nach Fayyad beinhaltet die Schritte zur Auswahl, der Vorverarbeitung und Transformation der Daten sowie die Data Mining-Modellierung und die Interpretation der Ergebnisse.43
Das Fünf-Schritte-Modell von Cabena et al., welches mit Unterstützung durch IBM entwickelt wurde und das Sechs-Schritte-Modell „Cross In- dustry Standard Process for Data Mining“ (CRISP-DM) werden den in- dustriellen Modellen zugeordnet. Das Modell CRISP-DM wurde basie- rend auf den Erfahrungen aus praktisch durchgeführten Data Mining- Projekten entwickelt und hat sich als industrieller Standard durchge- setzt.44 Modelle, welche Aspekte aus akademischen und industriellen Modellen kombinieren, wie das Sechs-Schritte-Modell von Cios, werden als hybride Modelle bezeichnet.45
Im Folgenden wird das Neun-Schritte-Modell von Fayyad et al. näher betrachtet. Die einzelnen Schritte können aus Abbildung 4 entnommen werden:
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4 Das Neun-Schritte-Modell von Fayyad et al.46
Im ersten Schritt des Vorgehensmodells entwickelt der Anwender ein Verständnis über das Anwendungsgebiet und bestimmt die Ziele, die er mit Hilfe des KDP erreichen möchte. Danach wird der Zieldatensatz definiert. Dafür werden die relevanten Datenbestände ausgewählt, um sie anschließend im Rahmen der Datenvorbereitung auf Qualitätsmängel zu untersuchen. Dabei werden Ausreißer im Datensatz gelöscht, Störungen behoben und fehlende Daten ersetzt.47
[...]
1 Vgl. Brewer (2000).
2 Vgl. Fan, Gordon (2014), S. 75.
3 Vgl. ebenda.
4 Vgl. Jansen et al. (2009), S. 2169; Melville et al. (2009).
5 Vgl. Ludwig et al.(2013), S.87.
6 Vgl. Chen, Xie (2008).
7 Vgl. Feldman (2013), S. 82.
8 Vgl. Pak, Paroubek (2010), S. 1320.
9 Vgl. Lehmann (2004), S. 15.
10 Vgl. Archak et al. (2011), S. 1490.
11 Frawley et al. (1992), S. 58.
12 Vgl. Fayyad (1996), S. 37 f..
13 Vgl. Cios et al. (2007), S. 11.
14 Vgl. Cios et al. (2007), S. 39.
15 Ebenda, S. 41.
16 Bissantz, Hagedorn (2009), S. 139.
17 Vgl. Cios et al. (2007), S. 10.
18 Vgl. Bissantz, Hagedorn (2009), S. 139.
19 Vgl. Fayyad et al. (1996), S. 43.
20 Vgl. Müller, Lenz (2013), S. 79, 110.
21 Vgl. Kao, Poteet (2007); Mehler, Wolff (2005), S. 2.
22 Mobasher et al. (1997), S. 1.
23 Kaplan, Haenlein (2010), S. 61.
24 Vgl. ebenda, S. 62.
25 Vgl. Moturu, Liu (2009), S. 239.
26 Högg et al. (2006), S. 13.
27 Vgl. Zafarani et al. (2014), S. 16.
28 Zafarani et al. (2014), S. 16.
29 Rauschnabel (2014), S. 7.
30 Vgl. Evertz (2014).
31 Vgl. Zahn (o.J.).
32 Vgl. Breazeale (2009); O’Reilly (2005).
33 Vgl. Mangold et al. (1999) S. 80; Murray (1991), S. 14.
34 Vgl. Brown et al. (2007), S. 4.
35 Feldman (2013), S. 82.
36 Liu (2007), S. 1.
37 Vgl. Angulakshmi, Manicka Chezian (2014), S. 7485; Liu (2012), S. 421.
38 Vgl. Hu, Liu (2004), S. 756; Pang, Lee (2004).
39 Joshi (1991), S. 1242.
40 Vgl. Allen (2004), S. 1218.
41 Vgl. Cios et al. (2007), S. 11 ff..
42 Vgl. ebenda.
43 Vgl. Fayyad et al. (1996), S. 12.
44 Vgl. Chapman (2000).
45 Vgl. ebenda.
46 Fayyad et al. (1996), S. 12.
47 Vgl. ebenda, S. 42.
- Quote paper
- Lisa Eicker (Author), 2015, Einfluss von Kundenbeiträgen auf den Verkauf von Versicherungen. Eine vergleichende Analyse von Social Media-Plattformen, Munich, GRIN Verlag, https://www.grin.com/document/335002
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.