Im Zuge der rapiden Digitalisierung in den letzten 15 Jahren bildete sich im Endverbrauchermarkt ein klarer Trend: das Online-Shopping, auch E-Commerce. Durch das explosive Wachstum der Online-Branche und die Vielfalt der verfügbaren Produkte und Informationen steht Konsumenten eine weitaus größere Auswahl an Produkten zur Verfügung. Vor diesem Hintergrund entstand das dringende Bedürfnis der Betreiber von E- Commerce Anwendungen Lösungen für das Informationsüberbelastungs-Problem zu finden und einem Nutzer aus der Bandbreite der verfügbaren Artikel genau die Artikel herauszufiltern, die ihn tatsächlich interessieren. Zuerst wird ein strukturierter Überblick über das Themengebiet der Systeme, die bei der individuellen Angebotsauswahl (Recommender Systems) gegeben. Anschließend werden die errungenen Erkenntnisse auf das bestehende Webprtal der miBaby GmbH angewendet. Es werden mögliche Websysteminfrastrukturen aufgezeigt werden, die letztendlich zu einem besseren Kundenerlebnis und langfristig wiederkehrenden und hochaktiven Nutzern führen sollen.
II. Inhaltsverzeichnis
III. Tabellenverzeichnis
IV. Abbildungsverzeichnis
V. Abkürzungsverzeichnis
1 Einleitung
1.1 Zielsetzung der Arbeit
1.2 Formaler Aufbau
2 State-of-the-art der Recommender Systems
2.1 Problemstellung
2.2 Definition Recommender System
2.3 Funktionsweise und Funktionen
2.4 Datenund Wissensquellen
2.5 Empfehlungstechniken und IT-Lösungen
2.5.1 Content-based RS
2.5.1.1 Architektur und Empfehlungsprozess
2.5.1.2 Berechnung der Empfehlungen
2.5.1.3 Vorund Nachteile
2.5.1.3.1 Genauigkeit
2.5.1.3.2 Erklärbarkeit
2.5.1.3.3 Serendipität
2.5.1.3.4 Skalierbarkeit
2.5.1.3.5 Cold-Start-Problem
2.5.1.4 Verbesserungsvorschläge und zukünftige Entwicklungen
2.5.2 Collaborative-Filtering RS
2.5.2.1 Nachbarschaftsbasierende Bewertungsvorhersage
2.5.2.2 Modellbasierende Bewertungsvorhersage
2.5.2.3 Vorund Nachteile
2.5.2.3.1 Genauigkeit
2.5.2.3.2 Erklärbarkeit
2.5.2.3.3 Serendipität
2.5.2.3.4 Skalierbarkeit
2.5.2.3.5 Cold-Start-Problem
2.5.2.4 Lösungsansätze für Schwachstellen
2.5.2.5 Anwendungsbereiche
2.5.3 Weitere Techniken
2.5.3.1 Knowledge-based RS
2.5.3.2 Social Recommender Systems
2.5.3.3 Demographic-based RS
2.5.4 Hybrid RS
2.5.4.1 Strategien
2.5.4.2 Leistungsunterschiede
2.6 Ergebnisse des Überblicks über bestehende Techniken
3 Vorstellung miBaby GmbH
3.1 Allgemein
3.2 Geschäftsmodell
3.3 Relevanz eines RS
3.3.1 Erhöhung der Traffic-Qualität
3.3.2 Einsparung von Werbekosten
3.3.3 Einflüsse des RS
4 Konzeption eines RS auf miBaby.de
4.1 Anforderungen an RS
4.1.1 Application Model
4.1.2 User Model
4.1.3 Data Model
4.2 Konzeptideen
4.2.1 Ausschluss von Techniken
4.2.2 Collaborative Filtering RS
4.2.2.1 Datenquellen
4.2.2.2 Umrechnung der Bewertungsskala
4.2.2.3 Korrelationsgenerator
4.2.2.4 User Model
4.2.2.5 Berechnung
4.2.2.5.1 Algorithmus
4.2.2.5.2 Filter
4.2.2.6 Erweiterungen
4.2.2.6.1 Topics
4.2.2.6.2 Feedback zu Empfehlungen
4.2.3 Knowledge-based RS
4.2.3.1 Datenquellen
4.2.3.2 Knowledge Engineering
4.2.3.3 User Model
4.2.3.4 Berechnung
4.2.3.5 Erweiterung
4.3 Reflektion der Konzepte gegeben der Anforderungen
4.3.1 Umsatzmaximierung durch Erhöhung der Beratungsqualität
4.3.2 Implementierung des Beratungsprozesses
4.3.3 Integration in die Navigation auf miBaby.de
4.3.4 Nutzung als Marketingkanal
4.3.5 Korrektheit der Empfehlungen
4.3.6 Einbindung bestehender Seiteninhalte
4.4 Hybrides Konzept
4.4.1 Aufbau
4.4.2 Operative Steuerung des RS
4.4.3 Grundlagen zur Evaluierung der Leistung
5 Offene Punkte
5.1 Datenschutz
5.2 Überlegungen zu Grenzen der IT
6 Zusammenfassung und Ausblick
VI. Anhang
VII. Literaturverzeichnis
III. Tabellenverzeichnis
Tabelle 1: Beispiel Filmbewertungen verschiedener Nutzer
Tabelle 2: Nutzer-Korrelationsmatrix
Tabelle 3: Evaluierung der vorgestellten Techniken nach den definierten Kriterien .
Tabelle 4: Produkt-Produkt-Korrelationen
Tabelle 5: "Votings" für das Produkt "SchnullerZ4"
Tabelle 6: Kompatibilitätsbedingungen (COMP)
Tabelle 7: Produktbedingungen (PROD)
Tabelle 8: Filterbedingungen (FILT)
Tabelle 9: Datensatz der Abfrage des Nutzers user1
Tabelle 10: Bewertung der qualitativen Dimensionen zweier Produkte
IV. Abbildungsverzeichnis
Abbildung 1: Überblick über im Folgenden behandelte Techniken und Anwendungen in der Praxis
Abbildung 2: Architektur eines Content-based RS
Abbildung 3: Propagationsprinzip (hier: a=c, b=z, c=v)
Abbildung 4: Einbindung des RS in die Umgebung miBaby
Abbildung 5: Architektur eines Collaborative Filtering RS für das Web-Portal miBaby.de
Abbildung 6: Architektur eines um "Topics" erweiterten Collaborative Filtering RS für das Web-Portal miBaby.de
Abbildung 7: Exemplarische Darstellung von "Topics"
Abbildung 8: Architektur eines um "Topics" und "Feedback" erweiterten Collaborative Filtering RS für das Web-Portal miBaby.de
Abbildung 9: Architektur eines Knowledge-based RS für das Web-Portal miBaby.de .
Abbildung 10: Entscheidungsbaum beim Kauf eines Kinderwagens
Abbildung 11: Beratungsprozess beim Kauf eines Kinderwagens dargestellt als endlicher Automat
Abbildung 12: Architektur eines um qualitative Dimensionen erweitertes Knowledgebased RS für das Web-Portal miBaby.de
Abbildung 13: Aufbau des Hybrid RS für miBaby.de
Abbildung 14: Integration von "Business Rules" in den Filterprozess
V. Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einleitung
Im Zuge der rapiden Digitalisierung in den letzten 15 Jahren bildete sich im Endverbrauchermarkt ein klarer Trend: das Online-Shopping, auch E-Commerce. Wachstumszahlen des E-Commerce-Umsatzes in Deutschland bestätigen diesen Trend. Betrug der Jahresumsatz der Online-Marktplätze 1999 noch 1,25 Milliarden Euro, wurden im Jahr 2013 33,1 Milliarden Euro auf Online-Marktplätzen umgesetzt. Für 2014 wird ein Anstieg um 17% gegenüber dem Vorjahr auf 38,7 Milliarden Euro prognostiziert.1
Durch das explosive Wachstum der Online-Branche und die Vielfalt der verfügbaren Produkte und Informationen steht Konsumenten eine weitaus größere Auswahl an Produkten zur Verfügung. Statt zu einigen tausend Büchern in einer Buchhandlung beispielsweise haben Konsumenten heute in einem Online-Shop Zugang zu Millionen von Büchern. Die erweiterten Auswahlmöglichkeiten gehen einher mit einem erhöhten Betrag an Informationen, die ein Konsument evaluieren muss, um ein Produkt zu finden, das seinen Bedürfnissen entspricht. Die Mehrzahl der Nutzer dieser Online- Dienstleistungen ist durch diese Überbelastung mit Informationen überfordert.2 Dieses Informationsüberbelastungs-Problem führt dazu, dass Nutzer Entscheidungen wie den Kauf des passenden Produktes nicht optimal treffen können.3
Vor diesem Hintergrund entstand das dringende Bedürfnis der Betreiber von E- Commerce Anwendungen Lösungen für das Informationsüberbelastungs-Problem zu finden und einem Nutzer aus der Bandbreite der verfügbaren Artikel genau die Artikel herauszufiltern, die ihn tatsächlich interessieren.4
“ If I have 3 million customers on the Web, I should have 3 million stores on the Web. ” - Jeff Bezos, CEO von Amazon.com, Inc.
Die überspitzte Aussage von Jeff Bezos veranschaulicht das Bestreben der Betreiber ihre E-Commerce Anwendungen auf den einzelnen Nutzer maßzuschneidern. Dazu verfolgen E-Commerce Plattformen das Ziel der Massenproduktion kundenindividueller Produktpräsentation in ihren Online-Shops.
Innerhalb der Online-Domäne entwickelt sich ein weiterer Trend: die Personalisierung der E-Commerce-Plattformen. Zwei populäre Möglichkeiten Internetnutzern Produkte bzw. Inhalte personalisiert zu präsentieren sind das Real Time Bidding und Recommender Systems.5
Aus Sicht des Online-Marketings äußert sich dieser Trend in Form des sogenannten Real Time Bidding. Fokus ist hier die zielgerichtete Werbeansprache jedes einzelnen Nutzers. Zeigt ein Nutzer Interesse für ein Produkt in einem Online-Shop, wird diese Information daraufhin seinem Nutzerprofil hinzugefügt. Jeder verfügbare Werbeplatz, den der Nutzer ab jetzt einsieht, wird gekoppelt mit Informationen aus seinem Profil in Echtzeit auf einem Auktionsmarktplatz angeboten. Der Betreiber des Online-Shops hat dann die Möglichkeit ein Angebot für diese Werbeplätze abzugeben.6 So werden die Werbeeinblendungen für jeden Kunden personalisiert. Etablierte Online-Händler wie Zalando, die Otto Gruppe, eBay und Conrad nutzen diese Art der personalisierten Werbung.7
Eine weitere Möglichkeit für Online-Händler ihren Online-Shop für jeden einzelnen Nutzer zu personalisieren, bieten Recommender Systems (deutsch: Empfehlungssysteme). Diese können automatisiert für eine Vielzahl von Nutzern akkurate Produktempfehlungen generieren. Diese Produktempfehlungen sollen den Nutzer bei der Entscheidung des Produktkaufs unterstützen. Empfehlungen werden dabei basierend auf demographischen Daten des Nutzers oder einer Analyse des bisherigen Nutzerverhaltens berechnet. Weiter ermöglichen es diese Berechnungen dem Betreiber einer Internetseite die angezeigten Inhalte gegeben der Interessen eines Nutzers zu adaptieren.8
Um die Leistung der Berechnungsalgorithmen ihres Recommender Systems (RS), die der Generierung von Empfehlungen zugrunde liegen, signifikant zu verbessern, veranstaltete der US-amerikanische Online-Filmund DVD-Verleih Netflix.com von 2006 bis 2009 jährlich einen Wettbewerb, an welchem vor allem internationale Forschungsgruppen teilnahmen. Der Siegeralgorithmus wurde 2009 mit einem Preisgeld in Höhe von 1 Millionen US-Dollar ausgezeichnet.9
Betreiber von E-Commerce Anwendungen investieren, um ihre Nutzer besser zu verstehen und dieses Wissen durch RSs zu operationalisieren.10 Online-Händler wie Amazon11, Unterhaltungsplattformen wie Youtube12 und Informationsportale wie Yahoo News13, empfehlen ihren Nutzern personalisierte Inhalte bzw. Produkte mit Hilfe von RSs und generieren dadurch einen entscheidenden Wettbewerbsvorteil.14 So nutzten 2011 12,4% der deutschen Online-Händler Retargeting und 45,7% Produktempfehlungssysteme als verkaufsfördernde Maßnahme.15
1.1 Zielsetzung der Arbeit
Das erste Ziel dieser Bachelorarbeit ist es einen strukturierten Abriss der bestehenden Techniken zur Umsetzung eines RS zu geben. Dazu werden die Funktionsweise sowie Vorund Nachteile etablierter und zukünftig relevanter Arten von RSs vorgestellt. Das zweite Ziel ist es aufbauend auf den Ergebnissen dieses Überblicks ein Konzept für ein RS für das Portal der miBaby GmbH zu entwerfen. Dazu werden einige Komponenten der vorgestellten Arten von RSs in konkreten Konzeptideen angewandt. Es werden zwei Konzeptideen erarbeitet. Basierend auf den Anforderungen der miBaby GmbH werden diese Konzeptideen evaluiert. Aus den Ergebnissen dieser Evaluation wird letztlich ein optimales RS für das Portal der miBaby GmbH abgeleitet.
1.2 Formaler Aufbau
Die folgende Arbeit ist gegliedert in vier Abschnitte.
Im zweiten Kapitel werden fünf Techniken präsentiert, die zum Aufbau eines RS verwendet werden können. Es werden jeweils die Funktionsweise und die Berechnung der Empfehlung dargestellt. Vorund Nachteile werden anhand definierter Kriterien beleuchtet und Möglichkeiten Nachteile durch Kombination unterschiedlicher Techniken einzugrenzen, werden erläutert.
Im dritten Kapitel folgt eine Vorstellung der miBaby GmbH mit der klaren Erörterung der Relevanz eines RS für das Webportal miBaby.de.
Kapitel 4 beinhaltet die Anforderungen der miBaby GmbH an das zukünftige RS, welche aus den Interviewantworten des Mitgründers und Geschäftsführers der miBaby GmbH Herrn Dr. Kettenring extrahiert werden.
Es werden zwei Konzeptideen für das Web-Portal miBaby.de ausgearbeitet. Diese werden gegeben der formulierten Anforderungen reflektiert. Das Ergebnis ist eine Kombination aus den leistungsstärksten Komponenten der zwei Konzepte in einem hybriden System.
In Kapitel 5 werden RSs unter den Gesichtspunkten des Datenschutzes und der Grenzen der automatisierten personalisierten Beratung kritisch betrachtet. Abschließend werden die wesentlichen Ergebnisse der Arbeit zusammengefasst und es wird ein kurzer Ausblick auf zukünftig interessante Anwendungsmöglichkeiten der RSs gegeben.
2 State-of-the-art der Recommender Systems
2.1 Problemstellung
Das Wachstum der Online-Märkte nimmt großen Einfluss auf Konsumenten und ihr Kaufverhalten, indem ihnen Zugang zu einer großen Produktvielfalt gewährt wird und sie zusätzliche Informationen zu Produkten abrufen können. Zum einen trug diese Freiheit der Konsumenten zwar zum rasanten Wachstum der E-Commerce-Branche bei, zum anderen ist es aufgrund der unüberschaubaren Menge von Informationen und Produkten auch schwieriger für einen Konsumenten die Produkte und Inhalte zu finden, die seinen Bedürfnissen entsprechen.
Eine Lösung für diese Überflutung des Konsumenten mit Informationen sind RSs, die Konsumenten mit automatisierten und personalisierten Produktempfehlungen beliefern.16
2.2 Definition Recommender System
RSs sind Softwarewerkzeuge und -techniken, die Artikel, welche für bestimmte Nutzer relevant und nützlich sind, genau diesen Nutzern empfehlen. Die Empfehlungen beziehen sich dabei auf unterschiedliche Entscheidungsprozesse, wie z.B den Kauf eines Artikels, das Hören von Musikstücken, das Lesen von Nachrichten, etc. Der Begriff „Artikel“ ist im weiteren Sinne zu interpretieren und steht hier stellvertretend für das Produkt bzw. die Dienstleistung, die der Betreiber durch das RS dem Nutzer empfiehlt. Ein RS ist meist für eine spezielle Art von Artikel konzipiert. Um möglichst effektive und für den Nutzer brauchbare Empfehlungen zu generieren, werden die Empfehlungstechnik, das Design des RS und die grafische Benutzeroberfläche entsprechend konzipiert.
Empfehlungen werden unterteilt in personalisierte und nicht personalisierte. Die personalisierten Empfehlungen spielen eine zentrale Rolle in jedem RS. Es sollen Produkte oder Dienstleistungen empfohlen werden, die zu einem Nutzer passen. Basis sind dabei die Nutzerpräferenzen. Diese äußern Nutzer entweder explizit, indem sie beispielsweise Bewertungen zu Produkten abgeben, oder implizit. Um Informationen über implizite Nutzerpräferenzen zu generieren, versucht das RS Nutzeraktionen zu interpretieren, vorzugsweise die Anzahl der Besuche auf Produktseiten. In der einfachsten Form sind personalisierte Empfehlungen in der Praxis als Rankinglisten von Artikeln zu finden (z.B. nach Relevanz sortierte Artikel). Nicht personalisierte Empfehlungen sind einfacher zu generieren und finden sich z.B. in Zeitschriften in Form einer Liste der 10 beliebtesten Bücher, werden jedoch im Rahmen eines RS nicht betrachtet.
Die Empfehlungen des RS helfen Individuen, die nicht über die ausreichende persönliche Erfahrung und die Kompetenz verfügen, die Vielzahl an Artikeln nach ihren persönlichen Bedürfnissen und Interessen zu evaluieren.17
2.3 Funktionsweise und Funktionen
Mit einem RS werden Empfehlungen basierend auf Wissen und Daten über Nutzer, verfügbare Artikel und vorangegangene Transaktionen, die sich zwischen Nutzer und RS ereigneten und in der RS-Datenbank protokolliert wurden, generiert. Die Vorgehensweise ist bei fast allen RS-Techniken die voraussichtliche Bewertung eines Nutzers für bestimmte Artikel zu berechnen, diese Artikel dann nach Bewertung absteigend zu sortieren und die höchsten Listeneinträge dem Nutzer zu empfehlen. Der Nutzer kann dann die generierten Empfehlungen einsehen und direkt oder in einer späteren Phase implizites oder explizites Feedback zur Empfehlung abgeben. Diese Nutzeraktionen und Rückmeldungen werden wiederum in der Datenbank des RS gespeichert und dienen als Grundlage für zukünftige, neue Empfehlungen bei der nächsten Nutzer-System Interaktion.18
Bei der Erläuterung der Funktionen, die ein RS erfüllen soll, muss zwischen der Sicht des Betreibers des RS und der Nutzersicht differenziert werden.
Aus Betreibersicht soll der Einsatz eines RS zum einen die Anzahl der Artikelkäufe bzw. Artikelkaufvermittlungen und somit den Umsatz erhöhen. Dies kann mit einer Erhöhung der Kaufrate, engl. Conversionrate (CTR), und auch einer Erhöhung der Anzahl der zusätzlich verkauften Artikel, engl. more-selling, erreicht werden. Zum anderen kann eine Intention des Betreibers sein den eigenen Artikelkatalog mehr auszureizen, was bedeutet, dass weniger beliebte Artikel vermehrt verkauft werden. Diese Artikel kostenpflichtig zu bewerben, birgt ein hohes Risiko im Gegensatz zu vergleichbaren Werbemaßnahmen für beliebte Artikel. Das RS soll weniger beliebte Artikel den richtigen Nutzern empfehlen und somit hochrisikobehaftete Werbekosten minimieren.
Eine weitere Funktion eines RS ist die Erhöhung der Kundenzufriedenheit. Interessante und relevante, persönliche Empfehlungen sollen die Erlebnisqualität für den Nutzer erhöhen und in Verbindung mit einem benutzerfreundlichen Interface die Nutzung eines Webportals oder einer App erhöhen. Die Erhöhung der Portalnutzung und im besten Fall auch der Nutzertreue ist essentiell für den Ausbau der für die Berechnung von Empfehlungen relevanten Daten. Das User Model wird so präzisiert und Nutzerpräferenzen können genauer beschrieben werden. In der operativen Ebene und im Kontext des RS können dadurch effektivere Empfehlungen generiert werden, auf der strategischen Ebene sind diese Informationen v.a. für die Partnerauswahl bzw. die Bestimmung des Produktsortiments nutzbar.19
Der Nutzer erwartet sich von einem RS an erster Stelle, unterstützt durch die gezielten Empfehlungen, einige gute Produkte zu finden, die seinen Bedürfnissen entsprechen. In bestimmten Fällen liegt es im Interesse des Nutzers, nicht nur einzelne Produkte empfohlen zu bekommen, sondern eine Gruppe von Produkten, die gut zusammenpassen.
Ein weiteres Interesse des Nutzers kann die Verbesserung seines Profils bzw. seiner Daten in der Datenbank des RS sein. Er will die Möglichkeit wahrnehmen können dem RS mitzuteilen, welche Produkte bzw. Produktkategorien er favorisiert und welche nicht, um selbst Einfluss auf die Qualität der Empfehlung zu nehmen.20
2.4 Datenund Wissensquellen
Wie bereits in 2.3 erläutert, sind Daten und Wissen Grundlagen bei der Erstellung einer Empfehlung durch das RS. Generell können alle Quellen klassifiziert werden in drei Bereiche: Nutzer, Artikel und Transaktionen.
Um Empfehlungen zu personalisieren, sammelt das RS eine Auswahl an Daten über den Nutzer und generiert daraus Informationen. Welche Daten erhoben werden, ist abhängig von der Empfehlungstechnik, die das RS anwendet. Verschiedene RS- Techniken werden im folgenden Gliederungspunkt strukturiert beleuchtet. Bei der Verarbeitung von Nutzerdaten ist das „User Model“ unverzichtbar. Es soll die Präferenzen und Bedürfnisse der Nutzer aus den gesammelten Daten entschlüsseln. Artikel sind charakterisiert durch ihre Komplexität und durch ihren Wert bzw. Nutzen für den Empfänger einer Empfehlung. Geringe Komplexitäten haben Nachrichten, Bücher und Filme, hochkomplexe Artikel sind beispielsweise Digitalkameras, Computer, Reisen oder Finanzinvestitionen. Ricci/Rokach/Shapira (2011) nehmen an, dass für den Nutzer bei der Beschaffung eines Artikels Kosten entstehen. Diese unterteilen sich in monetäre Kosten für den tatsächlichen Kauf und kognitive Kosten für die Suche des Artikels. Übertragen auf RSs gilt somit: Ist der empfohlene Artikel für den Nutzer relevant übersteigt der Nutzen der Empfehlung deren Kosten. Ist der Artikel nicht relevant ist der Netto-Nutzen negativ.
Transaktionen beschreiben protokollierte Interaktionen zwischen Nutzer und RS. Diese Daten sind essentiell für Algorithmen, die personalisierte Empfehlungen generieren. Im Kontext eines RS für einen Online-Shop enthält eine Transaktion z.B. eine Referenz zu dem Artikel, mit dem der Nutzer interagiert hat. Zudem enthält sie eine Beschreibung der Interaktion (Seitenbesuch, Klick, etc.), somit implizites Feedback und eventuell. explizites Feedback des Nutzers in Form einer Produktbewertung.21
Explizites Feedback benötigt direkte Nutzeraktionen wie z.B. die Bewertung eines Artikels oder die Verfassung von Produktrezensionen auf Amazon oder Ebay22.
Explizites Feedback kann somit als jegliches Feedback beschrieben werden, das andere Nutzer ohne weitere Verarbeitung in ihren Entscheidungsprozess, beispielsweise dem Kauf eines Produkts, miteinbeziehen können. Vorteil dabei ist, dass die expliziten Informationen einfach zu verarbeiten sind. Nachteile sind die erhöhte kognitive Last der Nutzer und die Schwierigkeit Rückschlüsse auf relevante Nutzerpräferenzen zu ziehen, da Nutzer nicht alle Bedürfnisse explizit äußern.
Implizites Feedback beschreibt die Aufzeichnung und Analyse von Nutzeraktivitäten mit Artikelbezug z.B. Klick auf einen Link, Besuch auf einer Produktseite oder das Markieren einer Seite als Lesezeichen. Der Vorteil ist, dass Nutzerinteressen analysiert werden ohne den Nutzer hierbei direkt einbeziehen zu müssen.23 Nachteil ist das eventuelle Auftreten von Verzerrung (engl. biasing) und der Fehlinterpretation von Nutzeraktivitäten z.B. wird häufig auf den Link zu einem Artikel geklickt, weil er präsent auf der Webseite eingebunden wurde, aber nicht unbedingt, weil der Artikel für den Nutzer relevant ist.24
Auf die Benutzung der unterschiedlichen Datenquellen und des User Models wird in der folgenden Vorstellung der unterschiedlichen Empfehlungstechniken detaillierter eingegangen.
2.5 Empfehlungstechniken und IT-Lösungen
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Überblick über im Folgenden behandelte Techniken und Anwendungen in der Praxis25
Einen Überblick über die RS-Techniken, die im Folgenden genauer erläutert werden bietet Abbildung 1. Die Anzahl populärer Internet-Plattformen, die RSs in unterschiedlichen Formen anwenden, unterstreicht die aktuelle und zukünftige Relevanz des Themas RSs.
Um die nachfolgend vorgestellten Techniken zu bewerten, werden Dimensionen definiert, nach welchen die Techniken abschließend bewertet werden. Die Bewertungskriterien sind die folgenden:
- Genauigkeit:
Die Genauigkeit der Empfehlungen ist das Bewertungskriterium eines RS, das in der RS-Literatur am meisten diskutiert wird. Die meisten RS-Techniken sagen Bewertungen voraus, hier kann die Genauigkeit durch einen Vergleich der vorhergesagten und der tatsächlichen Bewertung berechnet werden. Eine Basisannahme bei RSs ist, dass Nutzer genauere Empfehlungen präferieren.26
- Erklärbarkeit:
Die Erklärbarkeit der Empfehlungen beschreibt die Möglichkeit einem Nutzer zu begründen warum ihm ein gewisses Produkt empfohlen wurde. Durch diese Erklärungen wird das Vertrauen der Nutzer in die Empfehlungen des RS gestärkt, was wiederum zu einer erhöhten Interaktionsrate mit Empfehlungen des RS führt.27
- Serendipität:
Serendipität beschreibt im Kontext der RSs die Nutzererfahrung unerwartete und überraschende Artikelempfehlungen präsentiert zu bekommen. Neben für den Nutzer vorhersehbaren Empfehlungen soll durch die Empfehlung von überraschenden Artikeln die Qualität des Nutzererlebnisses erhöht werden.28
- Skalierbarkeit:
Neben der Genauigkeit und Erklärbarkeit der Empfehlungen ist ein entscheidendes Bewertungskriterium eines RS die Skalierbarkeit des Systems, um schnell Empfehlungen für Datensätze, die aus mehreren Millionen Artikeln bzw. Nutzern bestehen, generieren zu können.29
- Cold-Start-Problem:
Liegt dieses Problem vor kann ein RS bei neuen Nutzern bzw. neuen Artikeln nicht die äquivalente Empfehlungsleistung erbringen wie bei Nutzern bzw. Artikeln, die seit einem längeren Zeitraum mit dem System interagieren bzw. ihm angehören.30
Im Folgenden werden unterschiedliche RS-Techniken vorgestellt.
2.5.1 Content-based RS
Das Content-based RS (deutsch: Inhaltsbasierendes Empfehlungssystem) empfiehlt Artikel, die Artikeln ähneln, mit welchen der Nutzer in der Vergangenheit positiv interagiert hat. Die Ähnlichkeit zwischen Artikeln wird basierend auf der Übereinstimmung derer Merkmale berechnet. Ein vereinfachtes Beispiel ist ein Film- Empfehlungssystem, das einem Nutzer Filme empfiehlt, die ähnliche Merkmale (z.B. Genre, Schauspieler, Regisseur, etc.) haben wie Filme, die der Nutzer in der Vergangenheit positiv bewertet hat.31
Im Folgenden werden die Architektur, an welcher sich der Empfehlungsprozess orientiert und die Berechnung der Empfehlung genauer erläutert. Vorbzw. Nachteile werden nach den vordefinierten Kriterien beleuchtet. Abschließend werden zukünftig relevante Entwicklungen zur Optimierung von Schwachstellen geschildert.
2.5.1.1 Architektur und Empfehlungsprozess
Die Architektur eines Content-based RSs ist in drei Bestandteile gegliedert: Content Analyzer, Profile Learner und Filtering Component. Die Bestandteile bedienen sich gewisser Informationsquellen und speichern Ergebnisse in Datenbanktabellen. Der Empfehlungsprozess soll anhand der Erläuterung der Bestandteile veranschaulicht werden.
Der Content Analyzer extrahiert zum einen Merkmale von Artikeln aus strukturierten und unstrukturierten Informationsquellen und speichert diese in der Datenbanktabelle Represented Items (deutsch: im System vertretene Artikel) ab. Zum anderen zeichnet er Nutzerfeedback zu Artikeln auf und speichert es in der Datenbanktabelle Feedback ab. Feedback kann grundsätzlich in positiver (z.B. liken eines Artikels) und in negativer (z.B. melden eines Artikels) Form gespeichert werden.32
2.4 zwischen implizitem und explizitem Feedback unterschieden.
Die Datenbankentabellen Represented Items und Feedback dienen als Input für die nächste Architekturebene Profile Learner.
Der Profile Learner verknüpft Bewertungen der Nutzer zu Produkten mit den Merkmalen des Produkts. Formal wird ein Profil für den aktiven Nutzerݑ gebildet, indem ein Trainingsdatensatz fürݑ definiert wird.
(1)
beschreibt hierbei den bewerteten Artikel und ݎ die zugehörige Bewertung. Mit den Paardatensätzen und Algorithmen werden vorausschauende Modelle, auch Nutzerprofile genannt, implementiert. Diese werden dann in der Datenbanktabelle Profiles gespeichert.
In der letzten Architekturebene Filtering Component wird abgewägt, ob Artikel (Einträge aus der Tabelle Represented Items) für den aktiven Nutzer ݑ relevant sind. Dabei werden die Merkmale der Artikel mit den Nutzerpräferenzen aus dem Nutzerprofil verglichen. Danach wird eine Rangliste der potentiell für ݑ interessanten Artikel geordnet nach Relevanz erstellt. Hoch gelistete Artikel werden in eine Liste von Empfehlungen ܮ übernommen, die dem Nutzer ݑ präsentiert wird. Damit ist der grundsätzliche Prozess der Empfehlung abgeschlossen.
Zu beachten ist, dass sich Nutzerpräferenzen in der Realität verändern können. Deshalb müssen kontinuierlich aktuelle Informationen zu Nutzerinteressen erhoben werden. So wird explizites Feedback zu den empfohlenen Artikeln ausܮ gesammelt, z.B. kann der Nutzer mitteilen, ob bzw. wie nützlich eine Empfehlung war. Dieses Feedback wird dann wiederum an den Profile Learner übergeben, um die Nutzerprofile auf dem aktuellsten Stand zu halten und im Filtering Component letztendlich Empfehlungen zu generieren, die den Nutzerpräferenzen entsprechen. Dieser iterative Prozess erlaubt dynamische Nutzerpräferenzen.33 Abbildung 2 veranschaulicht die Architektur und Funktionsweise eines Content-based RS.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Architektur eines Content-based RS34
2.5.1.2 Berechnung der Empfehlungen
Die Artikel, die dem Nutzer empfohlen werden, werden repräsentiert durch Attribute und Eigenschaften, am Beispiel eines Films sind das Schauspieler, Regisseur, Genre, etc. Wenn jeder dieser Artikel mit der gleichen Menge und Anzahl an Merkmalen beschrieben wird, also die gleiche Datenstruktur vorliegt, können so genannte „Machine Learning Algorithms“ (MLA) angewendet werden. In der Realität sind derart strukturierte Daten allerdings selten. In den meisten Content-based RS liegen Artikelbeschreibungen in unterschiedlich strukturierten Dokumenten vor (z.B. Websites, Emails, Nachrichten, Produktbeschreibungen). Deshalb müssen relevante Informationen vom Content Analyzer extrahiert werden, um anschließend MLAs für das Erlernen der Nutzerprofile anwenden zu können. Dazu werden in den traditionellen
Content-based RSs Verfahren verwendet, die relevante Keywords (deutsch: Schlüsselwörter) aus unstrukturierten Dokumenten herausfiltern.35 Ein weit verbreitetes Verfahren ist das „Vector Space Model“ (deutsch: Vektorraummodell). Hier werden die relevanten Dokumente zur Beschreibung eines Artikels, die in der Regel in Textform vorliegen, räumlich als Vektoren dargestellt. Ziel des Verfahrens ist es, jeden Artikel als n-dimensionalen Vektor darzustellen. Jede Dimension entspricht dabei der Gewichtung eines Wortes aus dem gesamten Wortschatz aller analysierten Dokumente. Somit beschreibt der Vektor den Zuordnungsgrad bzw. die Relevanz eines Wortes innerhalb der Dokumente, die den Artikel beschreiben. So werden die Alleinstellungsmerkmale bzw. die Keywords, die einen Artikel beschreiben, generiert. Mit Hilfe dieser Techniken durchsucht z.B. der Online-Nachrichten-Service News Dude die Nachrichten von Yahoo! News und vereinheitlicht die Informationsquellen so für die nachgelagerten Empfehlungsschritte.36
Sind die Dokumente in einer einheitlichen Form verfügbar, können MLAs in der Architekturebene Profile Learner angewendet werden. Diese MLAs erzeugen für eine gegebene Menge von Eingaben, im Kontext des RS für die übermittelten Bewertungen eines Nutzers, ein Nutzerprofil, das Vorhersagen ermöglicht. Diese Vorhersagen sollen dann bestimmen, ob ein Artikel für den Nutzer relevant ist oder nicht. Der naive Bayes Klassifikator ist ein beliebter Algorithmus für die Erstellung eines Nutzerprofils basierend auf einem Clustering-Verfahren. Dabei soll jeder Artikel klassifiziert werden unter Berücksichtigung der Nutzerpräferenzen. Diese sind in Form von Artikelbewertungen des Nutzers in der Vergangenheit vorhanden. In einem vereinfachten Modell existieren zwei Klassen, eine positive Klasse Cpos (Artikel, die relevant für den Nutzer sind) und eine negative Klasse Cneg (für den Nutzer nicht relevante Artikel).
Im ersten Schritt werden die Cluster, durch die vom Nutzer durch Bewertungen selbst klassifizierten Artikel, bestimmt. Zum Beispiel beinhaltet der positive Cluster nun alle Keywords der positiv bewerteten Artikel. Nun soll ein neuer Artikel A klassifiziert werden. Ein Artikel A wird beschrieben durch seine Keywords, formal gilt somit:
ܣൌ ሼ݇ଵǡǥǡ݇ሽ (2)
Es wird nun für jedes Keyword ݇ von ܣ berechnet wie wahrscheinlich es zur positiven bzw. zur negativen Klasse gehört. Überwiegt beispielsweise die Wahrscheinlichkeit, dass die Keywords ሼ݇ଵǡǥ ǡ݇ሽ von ܣ und somit ܣ zur positiven Klasse gehören, wird der Artikel ܣ der positiven Klasse zugeordnet und gilt jetzt als relevant für den Nutzer.
Formal werden die Wahrscheinlichkeitenܲሺܥ௦ȁܣሻ (die Wahrscheinlichkeit, dass die positive Klasse gewählt wird unter Voraussetzung, dass die positive Klasse der Artikel A gegeben ist) und ܲሺܥȁܣሻ (analog) berechnet. Ist ܲ൫ܥ௦หܣ൯ ܲሺܥȁܣሻ wird der Artikel der positiven Klasse zugeordnet. Im gegenteiligen Fall wird der Artikel der negativen Klasse zugeordnet und ist nicht relevant für den Nutzer. Grundlage dafür ist das Bayes-Theorem. Die Annahme hierbei ist, dass die Keywords unabhängig voneinander auftreten, ansonsten wäre die Berechnung der Wahrscheinlichkeiten nicht möglich. In der Realität trifft diese Annahme nicht zu, da Keywords wie z.B. Fussball und Tor häufiger in Zusammenhang auftreten als andere. Trotz dieser unrealistischen Annahme liefert der Bayes Klassifikator in der Anwendung gute Ergebnisse.37 In der Praxisanwendung implementiert z.B. „LIBRA“ einen Bayes Text- Klassifikator, der Bücher auf Grundlage von Produktbeschreibungen aus dem Online- Shop Amazon.com für den jeweiligen Nutzer in Klassen einordnet.38
Abschließend werden in der Ebene Filtering Component die Artikel, die der positiven Klasse zugeordnet wurden, dem Nutzer empfohlen. Der Nutzer hat dann wiederum die Möglichkeit die Informationsqualität der Empfehlungen zu bewerten. Diese Bewertung wird dann in der Tabelle Feedback gespeichert und fließt somit in die Neuberechnung der Cluster mit ein und das Profil des Nutzers wird aktualisiert. Dadurch werden mit steigender Zahl der Bewertungen des Nutzers die Cluster immer detaillierter definiert und es können passgenauere Empfehlungen generiert werden.
Weitere MLAs sind z.B. der Rocchio Algorithmus. Hier werden ähnlich wie beim Vektorraummodell Dokumente als Vektoren dargestellt, welche dann mit Prototyp- Vektoren der positiven bzw. negativen Klasse verglichen werden. Je ähnlicher der Vektor einem Klassenvektor ist, desto eher ist das Dokument der entsprechenden Klasse zuzuordnen.39
Die vorgestellten Verfahren Vektorraummodell und Bayes Klassifikator basieren beide auf Keywords. Das hat den Vorteil, dass akkurate Empfehlungen übermittelt werden, wenn viele Datensätze verfügbar sind. Ein großer Nachteil ist die fehlende Fähigkeit Semantik zu berücksichtigen, da das Vektorraummodell eine „String-Matching- Operation“ ist, die einen „Match“ also einen Treffer nur dann verzeichnet, wenn beim Vergleichen von Keyword-Vektoren zwei exakt gleiche Keywords in beiden Vektoren enthalten sind. Synonyme und auch Polysemien werden dabei nicht berücksichtigt. Ein Lösungsansatz, um dem entgegenzuwirken ist die semantische Analyse, welche das RS mit kulturellem und sprachlichem Hintergrundwissen ausstattet und es dem RS somit ermöglicht, Textdokumente zu interpretieren. Ein Beispiel ist die Nachrichten-Seite „SiteIF“, die mit Hilfe einer Lexikon-Datenbank die Nutzerprofile erweitert.40
Alle Studien, die Wissen über Linguistik und oder spezifisches Bereichswissen in das Content-based RS integrierten, übermittelten akkuratere Empfehlungen als traditionelle Content-based RS.41
2.5.1.3 Vorund Nachteile
2.5.1.3.1 Genauigkeit
Klassische Content-based RS basieren auf der Auswertung von Keywords. Da die meisten Content-based RS Artikel mit Hilfe von MLAs klassifizieren, können bei größeren Trainingsdatensätzen akkurate Empfehlungen generiert werden. Die Genauigkeit der Empfehlungen ist somit abhängig von dem Umfang und der Qualität der vorhandenen Informationen bezüglich der Artikel.42
2.5.1.3.2 Erklärbarkeit
Ein weiterer Vorteil ist die Möglichkeit der Transparenz der Empfehlungsherkunft. Dem Nutzer kann erklärt werden wie eine Empfehlung zu Stande kam. Das kann ein entscheidender Faktor für das Vertrauen des Nutzers in die Empfehlung sein. Das Vertrauen des Nutzers in das RS kann wiederum Einfluss darauf haben, auf wie viele Empfehlungen der Nutzer eingeht und in welchem Ausmaß er bei seinen Interaktionen z.B. bei seinem Kaufprozess auf einem Webportal die generierten Empfehlungen miteinbezieht.43
2.5.1.3.3 Serendipität
Ein Defizit ist die Überspezialisierung der Empfehlungen. Durch den iterativen Prozess, der eine immer präzisere Definition des Nutzerprofils begünstigt, besteht die Gefahr der Überspezialisierung. Ein klassisches Content-based RS hat keine Methode, um unerwartete oder überraschende Artikel zu empfehlen, da nur Artikel empfohlen werden, die den bisher positiv bewerteten Artikeln ähneln. Es besteht also ein Serendipitätsproblem. Serendipität beschreibt im Kontext RSs die Nutzererfahrung unerwartete und zufällige Artikelempfehlungen präsentiert zu bekommen. Ein „perfektes“ Content-based RS liefert dem Nutzer keine überraschenden Empfehlungen und limitiert dadurch die Bandbreite seiner Anwendungsmöglichkeiten.44
2.5.1.3.4 Skalierbarkeit
Ein Nachteil ist die begrenzt mögliche Analyse der Inhalte. Manche Artikel decken nur gewisse Aspekte aller Inhalte z.B. auf einem Webportal ab, es gibt aber viele andere Gesichtspunkte, die die Qualität der Nutzererfahrung mit einem Artikel beschreiben.
Zum Beispiel werden bei einer Textanalyse von Nachrichten ästhetische Aspekte nicht berücksichtigt, die ein wichtiger Einflussfaktor auf die Bewertung eines Artikels sein können. Sowohl automatische, als auch manuelle Zuweisung von Merkmalen kann nicht alle für die Nutzerentscheidung relevanten Aspekte definieren.45
2.5.1.3.5 Cold-Start-Problem
Schwierigkeiten hat das Content-based RS bei dem Eintritt eines neuen Nutzers in das RS. Bevor Nutzerpräferenzen erkennbar sind, muss das Content-based RS zuerst eine ausreichende Anzahl von Bewertungen des Nutzers sammeln. Da neue Nutzer noch keine bzw. wenige Bewertungen übermittelt haben, gestaltet sich die Generierung von akkuraten Empfehlungen problematisch.46 Dieses Phänomen wird in der Literatur auch Cold Start Problem genannt.
Weitere Ausprägungen in anderen Techniken sowie Lösungen werden im Laufe dieses Kapitels erläutert.
2.5.1.4 Verbesserungsvorschläge und zukünftige Entwicklungen
Wie oben erläutert ist ein Nachteil dieses RS-Ansatzes die Überspezialisierung bei der Generierung von Empfehlungen bzw. das Serendipitätsproblem. Für Nutzer von RSs kann Serendipität ein wichtiger Aspekt sein den Inhalt beispielsweise eines Webportals zu entdecken und durch „Glück“ passende Artikel zu finden, von denen sie nicht wussten, dass diese Artikel existieren bzw., dass sie ein Bedürfnis für diese Artikel haben. Ein Beispiel: In einem RS für Spielfilme hat ein Nutzer nur Filme eines speziellen Regisseurs positiv bewertet. Ein klassisches Content-based RS wird jetzt weitere Filme des Regisseurs als relevant für den Nutzer bewerten. Aus Nutzersicht sind die präsentierten Empfehlungen aber mit zunehmender Zeit vorhersehbar und nicht mehr spannend bzw. interessant. Ein Ansatz dem entgegenzuwirken ist die Operationalisierung von Serendipität z.B. durch die Annahme, dass der Nutzer Artikel, die seinem Profil weniger ähneln, eher nicht kennt und eine Empfehlung dieser Artikel eine überraschende, unerwartete Nutzererfahrung hervorrufen kann.
Eine Implikation innerhalb des Bayes-Klassifikators gestaltet sich z.B. folgendermaßen:
Es werden Artikel empfohlen, deren Klassenzugehörigkeit weniger klar definiert werden kann. Das sind Artikel deren Wahrscheinlichkeit der Zugehörigkeit zu einer Klasse die Wahrscheinlichkeit der Zugehörigkeit zur gegenteiligen Klasse nur knapp übersteigt im Vergleich zu klar zuordenbaren Artikeln. Diese Operationalisierung ist ein effektiver Weg die Fähigkeiten des klassischen Content-based RS zu erweitern, das Problem der Überspezialisierung zu entschärfen und v.a. die Qualität der Nutzererfahrung zu erhöhen.47
Um neuen Nutzern, die kaum bzw. keine Bewertungen abgegeben haben, akkuratere Empfehlungen zu präsentieren, kann eine Integration eines Knowledge-based Ansatzes sinnvoll sein. Durch generelles Wissen über die adressierten Nutzer und die Domäne wird dem New-User-Problem entgegengewirkt. Im Laufe dieser Arbeit wird auf das Konzept des Knowledge-based RS grundlegend eingegangen. Unter dem Gliederungspunkt Hybrid-RS werden Möglichkeiten zur Verbindung von unterschiedlichen RS-Ansätzen erläutert.
Mit dem Web 2.0, auch partizipatives Web genannt, haben die Nutzer einiger WebPortale die Möglichkeit selbst Inhalte zu generieren. Diese Inhalte können wiederum in einem Content-based RS als zusätzliche Datenquellen dienen, die die Qualität der Empfehlungen erhöhen können. Relevante Begriffe beschreiben hier „folksonomy“ bzw. „Social Tagging“. Dabei werden die auf einem Portal vorhandenen Inhalte durch die Nutzer beschrieben. Das geschieht durch die Vergabe von Tags (deutsch: Schlagwörtern) durch die Nutzer eines Portals.
Als ein Teilgebiet in der Forschung der Content-based RSs werden Social Tagging RS gesehen. Es wird z.B. ein Film RS basierend auf Keywords, die per gemeinschaftlicher Verschlagwortung der Inhalte vergeben werden, implementiert. Empfehlungen werden dann von einem Algorithmus berechnet, der die Ähnlichkeit der Keywords eines Films mit den Keywords aus der „Tag-Cloud“ aller Filme, die der Nutzer bewertet hat, vergleicht. In weiteren Publikationen werden die Tags, die Nutzerinteressen beschreiben, klassifiziert, um unterschiedliche Nutzerpräferenzen herauszufiltern. Problematisch sind bei der Vergabe von Schlagwörtern durch die Nutzergemeinde redundante Tags, Synonyme und Falschschreibungen. Lösungsansatz dafür ist das Filtern von Tags mit Wissensdatenbanken wie WordNet, Wikipedia und Google.48
2.5.2 Collaborative-Filtering RS
Die bekannteste und populärste RS-Technik ist das Collaborative Filtering (deutsch: gemeinschaftliches Filtern). Im Gegensatz zum Content-based RS stützt die Technik des Collaborative Filtering seine Berechnung der Empfehlungen einzig auf die Bewertungen von Nutzern für Artikel. Es werden keine weiteren Daten von Nutzern oder Artikeln erhoben. Das macht diese Technik v.a. für schwer charakterisierbare Artikel, wie z.B. Musik oder Spielfilme interessant und ermöglicht es, sie unabhängig von der Art der vorhandenen Artikel anzuwenden.49 Die grundsätzliche Idee ist es, die Bewertung des Nutzers ݑ für einen Artikel ݅, welchen er noch nicht bewertet hat, vorherzusagen. Zur Berechnung dieser Vorhersagen existieren verschiedene Ansätze.
Diese lassen sich in zwei Gruppen unterteilen. Zum einen neighborhood-based und zum anderen model-based.
Bei neighborhood-based (deutsch: basierend auf Nachbarschaft), teilweise auch memory-based genannt, Ansätzen wird die Ähnlichkeit zwischen Nutzern (user-based) oder zwischen Artikeln (item-based) festgestellt. Durch diese Ähnlichkeiten wird dann die Bewertung des Nutzersݑfür einen Artikel݅vorhergesagt.50
Beim user-based Collaborative Filtering werden Voraussagen für Bewertungen und daraus anschließend Empfehlungen für Artikel aggregiert, indem Ähnlichkeiten zwischen Nutzern auf der Basis ihrer Artikelbewertungen evaluiert werden. Es wird angenommen, dass Nutzer Artikel, die von ähnlichen Nutzern gut bewertet wurden, ebenfalls gut bewerten werden. Ähnlich sind Nutzer dann, wenn sie in der Vergangenheit ähnliche Bewertungen für gleiche Artikel abgegeben haben.51 Das item-based Collaborative Filtering basiert auf der Ähnlichkeit zwischen Artikeln, wobei diese wiederum mit Hilfe von Artikelbewertungen festgestellt wird. Hier wird angenommen, dass sich Nutzer mit hoher Wahrscheinlichkeit für Artikel interessieren, die den Artikeln ähneln, die sie in der Vergangenheit gut bewertet haben. Ähnlich sind Artikel wiederum, wenn sie von anderen Nutzern ähnlich bewertet wurden.52 Diese Variante des Collaborative Filtering wurde vom Online-Versandhändler Amazon.com entwickelt.53
Beim model-based (deutsch: auf einem Modell basierenden) Collaborative Filtering ist der Grundgedanke Nutzer-Artikel-Interaktionen mit Faktoren zu modellieren, die die Charakteristika der Nutzer und der Artikel repräsentieren. Das Modell bedient sich dann dieser vorhandenen Daten und sagt so Nutzerbewertungen für neue Artikel vorher.54
Im Folgenden werden die Funktionsweise, die Berechnung sowie die Vorund Nachteile der beiden Ansätze erläutert.
2.5.2.1 Nachbarschaftsbasierende Bewertungsvorhersage
Innerhalb der neighborhood-based Methode wird, wie bereits erwähnt, unterteilt in nutzerbasierend (user-based) und artikelbasierend (item-based). Die nutzerbasierende Methode evaluiert Nutzerinteressen für einen Artikel, indem Bewertungen für diesen Artikel von anderen Nutzern verwendet werden, die eine ähnliche Bewertungshistorie wie der Nutzer ݑ haben, auch Nachbarn genannt. Nachbarn sind die Nutzer ݒ, deren Bewertungen für Artikel, die ݑ und ݒ bewertet haben, am meisten mit den Bewertungen vonݑkorrelieren. Nachfolgend ein Beispiel aus Sicht des Nutzers zur Veranschaulichung dieses Ansatzes:
Ein Nutzer Gerd muss entscheiden, ob er den Film „Titanic“ ausleiht. Er weiß von Lisa, dass sie einen ähnlichen Filmgeschmack hat, da sie den Film „Matrix“ schlecht und den Film „Forrest Gump“ wie er positiv bewertet hat. Also fragt er Lisa nach ihrer Bewertung des Films „Titanic“. Tom und Felix haben „Matrix“ und „Forrest Gump“ genau entgegengesetzt zu Gerds und Lisas Bewertungen bewertet. Deshalb wird Gerd sie nicht nach ihrer Meinung zu „Titanic“ fragen.55
Tabelle 1: Beispiel Filmbewertungen verschiedener Nutzer
Abbildung in dieser Leseprobe nicht enthalten
Die Grundannahme ist, dass Nutzer mit ähnlichen Vorlieben, ähnliche Artikel mögen bzw. kaufen.
Zur Berechnung der vorhergesagten Bewertung der Nutzersݑfür den Artikel݅existieren die zwei Methoden Regression und Klassifizierung. Zuerst wird die Methode der Regression dargestellt, danach wird die Berechnung durch die Klassifizierung vorgestellt. Abschließend werden beide Berechnungsmethoden verglichen.
Die Regression formal betrachtend wird die Empfehlung ݎ௨ von Nutzer ݑ für den Artikel ݅ vorhergesehen, indem Empfehlungen von Nutzern ݒ, die ݑ am meisten ähneln, d.h. seinen nächsten Nachbarn, berücksichtigt werden. Für jeden Nutzer existiert ein Ähnlichkeitsindex ݓ௨௩, der die Ähnlichkeit der Nutzerpräferenzen von ݑ und ݒ beschreibt. Wie der Ähnlichkeitsindex ݓ berechnet wird, wird im Laufe dieses Kapitels genauer erläutert. Die k-nearest-neighbors (deutsch: k-nächsten-Nachbarn; kurz: k-N- N) vonݑsind die Nutzer, deren Ähnlichkeitsindex mit Nutzerݑhoch ist und, die den Artikel݅bewertet haben. Diese werden durchܰሺݑሻ beschrieben. Mit Hilfe der Ähnlichkeitsindizes vonݑ mit den jeweiligen Nutzern werden deren Bewertungen gewichtet. So gilt für die prognostizierte Bewertung:
ಿሺೠሻאೡ
ݎ௨ ൌσ
௪ೠೡ
ೡ ( 3)
σಿאೡ ȁ௪ೠೡȁ
ሺೠሻ
ݎ௩ beschreibt die Bewertung des Artikels݅durch den Nutzerݒ. Veranschaulicht an einem Beispiel berechnet sich die vorhergesagte Bewertung folgendermaßen.
Angenommen es soll die Bewertung von Gerd für den Film „Titanic“ vorhergesagt werden, indem die Bewertungen von Lisa und Felix benutzt werden. Es sei auch angenommen, dass die Ähnlichkeitsindizes 0,75 (Lisa) und 0,15 (Felix) seien. So gilt für Gerds Bewertung:
Ͷǡ؆ଷכହାǡଵହכݎൌǡହ ( 4)
ǡହାǡଵହ
In der Praxis interpretiert jeder Nutzer die vom System vorgegebene Bewertungsskala unterschiedlich. Einige Nutzer haben z.B. bei einer 5 Sterne-Bewertung in einem Film- RS eine niedrigere Hemmschwelle den höchsten Wert zu vergeben als andere Nutzer. Um Verzerrungen der Bewertungsvorhersage, die durch diesen Interpretationseffekt auftreten können, auszugleichen, werden die Bewertungen der Nachbarn normalisiert und die geschätzte Bewertung ݎ௨ anschließend wieder in die richtige Bewertungsskala transformiert.
Mit denselben Ausgangsdaten kann durch eine Klassifizierung ebenfalls die voraussichtliche Bewertung des Nutzers ݑ für den Artikel ݅ berechnet werden. Hier wird die Bewertung gefunden, die ݑ höchstwahrscheinlich abgeben wird, indem die nächsten Nachbarn von ݑ für Bewertungen abstimmen (voten). Das Voting ist die Summe der Ähnlichkeitsgewichtungen der Nachbarn, die den Artikel ݅ bewerten. Um das zu veranschaulichen, kann man sich vorstellen, dass der Nutzer ݑ Nutzer, die ihm sehr ähneln, seine Nachbarn, fragt, wie sie den Artikel ݅ bewertet haben. Die Antworten der Nutzer, die ihm ähnlicher sind, haben dabei mehr Gewicht. Er sammelt alle Antworten und wählt die Bewertung mit den meisten Stimmen. Formal gestaltet sich die Klassifizierung wie folgt:
ݒ ൌ σேሺ௨ሻא௩ߜሺݎ௩ ൌݎሻݓ௨௩ ( 5)
ݒ ist hier die Summe aller Votings für die Bewertung ݎ. ݒ ௫ ist die Bewertung, die für ݑ vorhergesagt wird. ܰሺݑሻ beschreibt die Menge aller Nutzer, die den Artikel ݅
bewertet haben. Wennݎ௩ ൌݎzutrifft giltߜሺݎ௩ ൌݎሻ ൌ ͳ, sonst 0.ݓ௨௩ beschreibt den Ähnlichkeitsindex von Nutzerݑund Nutzerݒ.
Angenommen wie im Beispiel sind die nächsten Nachbarn von Gerd Lisa und Felix mit den Ähnlichkeitswerten 0,75 und 0,15. In diesem Fall haben die Bewertungen 5 (Lisa) und 3 (Felix) jeweils eine Stimme. Da Lisas Stimme hier höher gewichtet ist als die Stimme von Felix, ist die vorausgesagte Bewertung von Gerdݎൌ ͷ .
[...]
1 Quelle: http://de.statista.com/statistik/daten/studie/3979/umfrage/e-commerce-umsatz-indeutschland-seit-1999/, Aufgerufen am 24.08.2014
2 Vgl. Schafer/Konstan/Riedl (2001), S.1.
3 Vgl. Ricci/Rokach/Shapira (2011), S.2.
4 Vgl. Ricci/Rokach/Shapira (2011), S.2.
5 Vgl. Schafer/Konstan/Riedl (2001), S.1.
6 Vgl. Schroeter et al. (2012), S.24
7 Vgl. Steingart (2014)
8 Vgl. Schafer/Konstan/Riedl (2001), S.1f.
9 Vgl. Gower (2014), S.1.
10 Vgl. Schafer/Konstan/Riedl (2001), S.2.
11 www.amazon.com
12 www.youtube.com
13 www.news.yahoo.com
14 Vgl. Prassas et al. (2001), S.1.
15 Quelle: http://de.statista.com/statistik/daten/studie/205399/umfrage/nutzung-vonverkaufsfoerdernden-massnahmen-im-online-handel/, Aufgerufen am 24.08.2014
16 Vgl. Desrosiers/Karypis (2011), S.107.
17 Vgl. Ricci/Rokach/Shapira (2011), S.1ff.
18 Vgl. Ricci/Rokach/Shapira (2011), S.3.
19 Vgl. Ricci/Rokach/Shapira (2011), S.5f.
20 Vgl. Ricci/Rokach/Shapira (2011), S.6f.
21 Vgl. Ricci/Rokach/Shapira (2011), S.7ff.
22 www.amazon.com bzw. www.ebay.com
23 Vgl. Lops/de Gemmis/Semerano (2011), S.77f.
24 Vgl. Granka et al. (2005), S.1.
25 Quelle: eigene Darstellung; Zuordnung der Firmennamen: Vgl. Debnath/Ganguly/Mitra (2008); Gower (2014); Jiang/Xiao/Li (2013); Wang/Chan/Ngai (2012); Linden/Smith/York (2003); Ricci/Rokach/Shapira (2011), S.18; Davidson et al. (2010)
26 Vgl. Shani/Gunawardana (2011), S.273.
27 Vgl. Shani/Gunawardana (2011), S.285.
28 Vgl. Shani/Gunawardana (2011), S.286f.
29 Vgl. Shani/Gunawardana (2011), S.293.
30 Vgl. Shani/Gunawardana (2011), S.283.
31 Vgl. Ricci/Rokach/Shapira (2011), S.11.
32 Vgl. Lops/de Gemmis/Semerano (2011), S.76.
33 Vgl. Lops/de Gemmis/Semerano (2011), S.77.
34 Vgl. Lops/de Gemmis/Semerano (2011), S.76., Fig. 3.1
35 Vgl. Lops/de Gemmis/Semerano (2011), S.80.
36 Vgl. Lops/de Gemmis/Semerano (2011), S.82f.
37 Vgl. Lops/de Gemmis/Semerano (2011), S.90ff.
38 Vgl. Lops/de Gemmis/Semerano (2011), S.84.
39 Vgl. Lops/de Gemmis/Semerano (2011), S.92.
40 Vgl. Lops/de Gemmis/Semerano (2011), S.85f.
41 Vgl. Lops/de Gemmis/Semerano (2011), S.85.
42 Vgl. Lops/de Gemmis/Semerano (2011), S.85.
43 Vgl. Shani/Gunawardana (2011), S.285.
44 Vgl. Iaquinta et al. (2008), S.1.
45 Vgl. Lops/de Gemmis/Semerano (2011), S.78.
46 Vgl. Lops/de Gemmis/Semerano (2011), S.79.
47 Vgl. Lops/de Gemmis/Semerano (2011), S.96ff.
48 Vgl. Lops/de Gemmis/Semerano (2011), S.94ff.
49 Vgl. Felfernig/Burke (2008), S.3f.
50 Vgl. Desrosiers/Karypis (2011), S.111f.
51 Vgl. Burke (2002), S.2.
52 Vgl. Desrosiers/Karypis (2011), S.112.
53 Vgl. Linden/Smith/York (2003), S.1.
54 Vgl. Desrosiers/Karypis (2011), S.112.
55 Vgl. Desrosiers/Karypis (2011), S.114.
- Quote paper
- Marcus Zanquila (Author), 2014, Das beratende Webportal. Konzeption eines Recommender Systems für das Webportal der miBaby GmbH, Munich, GRIN Verlag, https://www.grin.com/document/417804
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.