Durch die Vielzahl von Onlineshops und Fülle an Angeboten verliert der Onlinekäufer schnell die Übersicht. Preisvergleichsplattformen wie idealo helfen dem Kunden das günstigste Angebot im Netz zu finden. Die Gewährleistung der möglichst vollständigen Markttransparenz ist eine grundlegende Herausforderung für idealo. Das von uns entwickelte Softwaresystem Scout soll dabei helfen, den Produktkatalog von idealo auf Vollständigkeit zu überprüfen und fehlende Angebote aufzulisten. Ein wichtiger Prozessschritt ist dabei die Extrahierung von Produktinformationen, wie Produktname oder Preis, aus den einzelnen Webseiten. Die Schwierigkeit der Extraktion liegt darin, dass jeder Shop einen individuellen Aufbau besitzt und unterschiedlich strukturiert ist.
Im Rahmen dieser Arbeit wurde ein Algorithmus entwickelt, welcher mittels maschinellem Lernen die Produktinformationen aus den Webseiten extrahiert. Messungen, welche auf 50 verschiedenen Shops basieren, haben ergeben, dass die Produktinformationen mit einer Precision von über 95 Prozent bei einer Accuracy von etwa 50% extrahiert werden können.
Inhaltsverzeichnis
- Zusammenfassung
- 1. Die Welt der Preisvergleichsportale
- 1.1 Der Onlinehandel von heute
- 1.2 Das Preisvergleichsportal idealo
- 1.3 Das Ziel des Bachelorprojektes
- 1.4 Die Microservice-Architektur des Scout-Softwaresystems
- 2. Die Extraktion produktspezifischer Daten
- 2.1 Die technischen Anforderungen an den Parser
- 2.2 Die Positionsbestimmung der Produktattribute
- 2.3 Die Architektur des Parsers
- 2.4 Die Erstellung der Selektoren
- 3. Die Genauigkeitsmessung des Extraktionsalgorithmus
- 3.1 Die Testdaten der Evaluierung
- 3.2 Die Messergebnisse
- 3.3 Mögliche Fehlerquellen der Messungen
- 4. Der Ausblick und das Fazit
Zielsetzung und Themenschwerpunkte
Das Ziel des Bachelorprojektes war die Entwicklung einer Softwarelösung, die eine automatisierte Bestandsanalyse für Onlinehändler, die mit dem Preisvergleichsportal idealo zusammenarbeiten, ermöglicht. Diese Software, Scout genannt, soll fehlende Angebote im Produktkatalog von idealo identifizieren und so zur Verbesserung der Markttransparenz beitragen.
- Automatisierung der Bestandsanalyse für Onlinehändler
- Verbesserung der Markttransparenz durch Identifizierung fehlender Angebote
- Extraktion produktspezifischer Daten aus Webseiten von Onlinehändlern
- Entwicklung eines shop-spezifischen Parsers mit maschinellem Lernen
- Evaluierung der Genauigkeit des Extraktionsalgorithmus
Zusammenfassung der Kapitel
- Kapitel 1 führt in die Welt der Preisvergleichsportale ein und beleuchtet die Herausforderungen des Onlinehandels im Kontext der steigenden Produktvielfalt und der Notwendigkeit der Markttransparenz. Das Projekt Scout wird vorgestellt, das die Vollständigkeit des idealo-Produktkatalogs überprüfen soll.
- Kapitel 2 widmet sich der Extraktion produktspezifischer Daten aus den Webseiten von Onlinehändlern. Der shop-spezifische Ansatz wird beschrieben, der individuelle Regeln für die Extraktion von Informationen wie Produktname, Preis oder EAN nutzt. Das Projektteam entschied sich gegen shop-unspezifische Ansätze basierend auf Standards wie Schema.org, da die Einhaltung dieser Standards in der Praxis oft unzureichend ist.
- Kapitel 3 beschreibt die Evaluierung des entwickelten Extraktionsalgorithmus. Die Messungen zeigen, dass der Algorithmus eine hohe Präzision erreichen kann, wobei allerdings nicht alle Produktattribute extrahiert werden können. Die Ergebnisse liefern wichtige Erkenntnisse für die Weiterentwicklung des Parsers.
Schlüsselwörter
Die Arbeit befasst sich mit den Themen Preisvergleichsportale, Markttransparenz, Datenextraktion, Shop-spezifischer Parser, maschinelles Lernen, Evaluierung, Accuracy, Precision, Levenshtein-Distanz.
Häufig gestellte Fragen
Was ist das Ziel des Softwaresystems "Scout"?
Scout soll den Produktkatalog von idealo auf Vollständigkeit prüfen und automatisch fehlende Angebote in Onlineshops identifizieren.
Warum ist die Datenextraktion aus Onlineshops schwierig?
Jeder Onlineshop hat einen individuellen Aufbau und eine eigene Struktur, was eine allgemeingültige Extraktion von Namen und Preisen erschwert.
Warum wurde maschinelles Lernen für den Parser verwendet?
Maschinelles Lernen ermöglicht es dem System, shop-spezifische Regeln zu lernen und Informationen wie EAN oder Preise auch bei unterschiedlichen Layouts präzise zu finden.
Wie genau arbeitet der entwickelte Algorithmus?
In Tests erreichte der Algorithmus eine Precision (Genauigkeit der Treffer) von über 95 %, während die Accuracy (Gesamttrefferquote) bei etwa 50 % lag.
Warum wurde nicht auf Schema.org-Standards gesetzt?
Da viele Onlineshop-Betreiber diese Standards in der Praxis unzureichend oder fehlerhaft implementieren, ist ein shop-spezifischer Parser zuverlässiger.
- Quote paper
- Leonardo Hübscher (Author), 2018, Maschinelles Lernen im Onlinehandel, Munich, GRIN Verlag, https://www.grin.com/document/448663