Welche Methoden gibt es in der Literatur, Datenqualitätsdefekte in maschinellen Lernverfahren zu adressieren, wie können diese Methoden strukturiert werden und welche weiteren Studien sollten dahingehend unternommen werden?
Im Laufe der vergangenen Jahre haben die Fortschritte im Bereich des Maschinellen Lernens einen beachtlichen Beitrag zur Weiterentwicklung von Künstlicher Intelligenz und kognitiven Systemen geleistet. Künftig wird es kaum Bereiche geben, die nicht durch Technologien basierend auf Machine Learning und KI entscheidend verbessert werden. Insbesondere die Bereiche Medizin, Industrie 4.0, Internet-of-Things, Robotik, autonomes Fahren, aber auch viele weitere Anwendungsgebiete erwarten durch Machine Learning und Künstliche Intelligenz weitreichende Transformationen.
Bei Machine Learning-Verfahren werden Daten verarbeitet und verwertet, sodass wichtige Erkenntnisse generiert und erhebliche Wettbewerbsvorteile für Unternehmen erlangt werden können. Um sinnvolle Erkenntnisse aus den Daten generieren zu können und effektive, faktenbasierte Entscheidungen zu treffen, ist eine hohe Datenqualität essenzielle Voraussetzung. Entscheidungen und Empfehlungen können nur so gut sein wie die Daten, aus denen sie abgeleitet werden. Zudem müssen Machine Learning-Verfahren den aktuellen Entwicklungen aus dem Big Data Umfeld gerecht werden, deren Herausforderungen auch konventionelle Machine Learning-Verfahren nicht genügen.
Datenqualität wird in der Literatur jedoch als vielseitiges Konstrukt beschrieben und unter Zuhilfenahme verschiedener Datenqualitätsdimensionen weiter untergliedert. In der vorliegenden Arbeit werden die vier in der Literatur am häufigsten untersuchten Datenqualitätsdimensionen Genauigkeit (Accuracy), Vollständigkeit (Completeness), Konsistenz (Consistency) sowie Aktualität/ Zeitnähe (Currency bzw. Timeliness) betrachtet. Mithilfe einer strukturierten Literaturrecherche werden Datenqualitätsdefekte, die sich den zuvor genannten DQ-Dimensionen zuordnen lassen, strukturiert, zugehörige Adressierungsmethoden beschrieben und Implikationen für weitere Forschung gegeben. Die Ergebnisse basieren auf einer Untersuchung von mehr als 1.500 von Fachleuten untersuchten (peer-reviewed) Journals und Tagungsberichten.
Inhaltsverzeichnis
Abkürzungsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
1 Einleitung und Forschungsfrage
2 Begriffsdefinitionen und theoretische Grundlagen
2.1 Maschinelles Lernen
2.2 Datenqualität
2.3 Datenqualitätsdimensionen
2.3.1 Accuracy
2.3.2 Completeness
2.3.3 Consistency
2.3.4 Currency
3 Methodik
3.1 Strategie und Durchführung des Suchverfahrens
3.1.1 Prozess zur Auswahl relevanter Primärliteratur
3.1.2 Verwendete Literaturdatenbanken
3.1.3 Herangezogene Suchbegriffabfolgen
3.1.4 In- und Exklusionskriterien und Qualitätsbewertung
3.1.5 Datenextraktion
3.1.6 Ergänzend durchgeführte Suchverfahren
3.2 Synthese der Suchergebnisse
4 Darstellung der Ergebnisse
4.1 Allgemeine Ergebnisse der Literaturrecherche
4.2 Datenqualitätsdefekte
4.2.1 Defekte der Datenqualitätsdimension Accuracy
4.2.2 Defekte der Datenqualitätsdimension Completeness
4.2.3 Defekte der Datenqualitätsdimensionen Consistency
4.2.4 Defekte der Datenqualitätsdimensionen Currency
4.3 Methoden zur Adressierung von Datenqualitätsdefekten
4.3.1 Definition der häufig eingesetzten Verfahren und Methodenklassifizierungen
4.3.1.1 Häufig verwendete ML-Verfahren
4.3.1.2 Klassifizierung von Adressierungsmethoden
4.3.2 Adressierungsmethoden der Datenqualitätsdimension Accuracy
4.3.2.1 Adressierung von Imbalanced Data
4.3.2.2 Adressierung von Incorrect/Uncertain Data
4.3.2.3 Adressierung von Incorrect/Uncertain Labels
4.3.2.4 Adressierung von Irrelevant Features
4.3.2.5 Adressierung von Irrelevant Instances
4.3.2.6 Adressierung von Not Normalized Data
4.3.3 Adressierungsmethoden der Datenqualitätsdimension Completeness
4.3.3.1 Adressierung von Incomplete Images
4.3.3.2 Adressierung von Missing Feature Values
4.3.3.3 Adressierung von Missing Features
4.3.3.4 Adressierung von Missing Labels
4.3.4 Adressierungsmethoden der Datenqualitätsdimension Consistency
4.3.5 Adressierungsmethoden der Datenqualitätsdimension Currency
4.3.5.1 Adressierung von Outdated Data
4.3.5.2 Adressierung von Outdated Model
4.3.6 Hybride Methoden zur Adressierung mehrerer Datenqualitätsdefekte
4.4 Übersicht zum Zusammenhang zwischen den Datenqualitätsdefekten und Adressierungsmethoden
5 Erkenntnisse und Diskussion der Ergebnisse
5.1 Methodische Vorgehensweise der Literaturrecherche
5.2 Konzeptionelle Unterteilung der DQ-Defekte und Adressierungsmethoden
5.3 Identifizierte Möglichkeiten zur Adressierung von Datenqualitätsdefekten
5.3.1 Übergreifende Aspekte der Suchergebnisse
5.3.2 Datenqualitätsdimensionen und Datenqualitätsdefekte
5.3.3 Adressierungsmethoden
5.3.3.1 Bewertung der Adressierungsmethoden zu Imbalanced Data
5.3.3.2 Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Data
5.3.3.3 Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Labels
5.3.3.4 Bewertung der Adressierungsmethoden zu Irrelevant Features
5.3.3.5 Bewertung der Adressierungsmethoden zu Irrelevant Instances
5.3.3.6 Bewertung der Adressierungsmethoden zu Not Normalized Data
5.3.3.7 Bewertung der Adressierungsmethoden zu Incomplete Images
5.3.3.8 Bewertung der Adressierungsmethoden zu Missing Feature Values
5.3.3.9 Bewertung der Adressierungsmethoden zu Missing Features
5.3.3.10 Bewertung der Adressierungsmethoden zu Missing Labels
5.3.3.11 Bewertung der Adressierungsmethoden zu Inconsistent Data
5.3.3.12 Bewertung der Adressierungsmethoden zu Outdated Data
5.3.3.13 Bewertung der Adressierungsmethoden zu Outdated Model
5.3.3.14 Bewertung der hybriden Methoden
5.3.4 Bewertung der häufig angewandten Verfahren und Methodenklassifizierungen
6 Fazit
Anhang
Literatur
Abkürzungsverzeichnis
DQ Datenqualität
DQ-Defekt Datenqualitätsdefekt
DQ-Dimension Datenqualitätsdimension
KI Künstliche Intelligenz
kNN k-Nearest Neighbor
MAR Missing At Random
MCAR Missing Completely At Random
ML Maschinelles Lernen
MNAR Missing Not At Random
MS Microsoft
PCA Principal Components Analysis
RNS Ribonukleinsäure
SLR Systematic Literature Review
SVM Support Vector Machine
Abbildungsverzeichnis
Abbildung 3-1 Suchstrategie bei der Durchführung des SLRs in der vorliegenden Arbeit
Abbildung 3-2 Kategorisierung der Suchbegriffe zur Ermittlung geeigneter Primärliteratur in den drei Literaturdatenbanken
Abbildung 3-3 Bildausschnitt zur Konzeptmatrix, in der die Artikel in den Zeilen den DQ-Dimensionen, DQ-Defekten, Adressierungsmethoden etc. in Spalten zugeordnet sind
Abbildung 4-4 Anzahl der Artikel je Schritt der Suchstrategie (exkl. Dubletten)
Abbildung 4-5 Veröffentlichungsjahre der Publikationen im Zeitverlauf (exkl. Dubletten)
Abbildung 4-6 Häufigkeit der ML-Algorithmen, die DQ-Defekte in den Publikationen aufweisen (inkl. Dubletten)
Abbildung 4-7 Verteilung der Anwendungsgebiete auf DQ-Defekte (inkl. Dubletten)
Abbildung 4-8 Übersicht zur Anzahl an Adressierungsmethoden je DQ-Defekt
Tabellenverzeichnis
Tabelle 3-1 Verwendete Suchbegriffabfolge in der Literaturdatenbank ACM
Tabelle 3-2 Verwendete Suchbegriffabfolge in der Literaturdatenbank ProQuest
Tabelle 3-3 Verwendete Suchbegriffabfolge in der Literaturdatenbank EBSCOhost
Tabelle 3-4 Extrahierte Informationen aus der Primärliteratur
Tabelle 3-5 Artikel der Ergänzungssuche nach DQ-Defekt und Auffindungsort
Tabelle 4-6 Publikationstypen nach Literaturdatenbank (exkl. Dubletten)
Tabelle 4-7 Zuordnung der erfassten Gesamtergebnisse/Publikationen zu Literaturdatenbanken und DQ-Dimensionen (inkl. Dubletten)
Tabelle 4-8 Anzahl der Kombinationen von ML-Typen und ML-Tasks, die DQ-Defekte aufweisen (inkl. Dubletten)
Tabelle 4-9 Anzahl der Anwendungsbereiche nach Literaturdatenbanken (exkl. Dubletten)
Tabelle 4-10 Anzahl der aus der Literatur extrahierten DQ-Defekte und deren Zuordnung zu DQ-Dimensionen (inkl. Dubletten)
Tabelle 4-11 Adressierungsmethoden für Imbalanced Data
Tabelle 4-12 Adressierungsmethoden für Incorrect/Uncertain Data
Tabelle 4-13 Adressierungsmethoden für Incorrect/Uncertain Labels
Tabelle 4-14 Adressierungsmethoden der Feature Extraction für Irrelevant Features
Tabelle 4-15 Adressierungsmethoden der Filter Methods innerhalb der Feature Selection für Irrelevant Features
Tabelle 4-16 Adressierungsmethoden der Embedded Methods innerhalb der Feature Selection für Irrelevant Features
Tabelle 4-17 Adressierungsmethoden der Wrapper Methods innerhalb der Feature Selection für Irrelevant Features
Tabelle 4-18 Adressierungsmethoden des Subspace Clustering für Irrelevant Features
Tabelle 4-19 Adressierungsmethoden für Irrelevant Instances
Tabelle 4-20 Adressierungsmethoden der Normalization für Not Normalized Data
Tabelle 4-21 Adressierungsmethoden für Incomplete Images
Tabelle 4-22 Adressierungsmethoden der Single Imputation für Missing Feature Values
Tabelle 4-23 Adressierungsmethoden der Multiple Imputation für Missing Feature Values
Tabelle 4-24 Adressierungsmethoden der Deletion für Missing Feature Values
Tabelle 4-25 Adressierungsmethoden des Modelling From Available Data für Missing Feature Values
Tabelle 4-26 Adressierungsmethoden für Missing Features
Tabelle 4-27 Adressierungsmethoden für Missing Labels
Tabelle 4-28 Adressierungsmethoden für Inconsistent Data
Tabelle 4-29 Adressierungsmethoden für Outdated Data
Tabelle 4-30 Adressierungsmethoden für Outdated Model
Tabelle 4-31 Hybride Methoden zur Adressierung simultan mehrerer DQ-Defekte
1 Einleitung und Forschungsfrage
Im Laufe der vergangenen Jahre haben die Fortschritte im Bereich des Maschinellen Lernens (ML) einen beachtlichen Beitrag zur Weiterentwicklung von Künstlicher Intelligenz (KI) und kognitiven Systemen geleistet (Badillo et al., 2020; Jiang et al., 2021). Künftig wird es kaum Bereiche geben, die nicht durch Technologien basierend auf ML und Künstlicher Intelligenz entscheidend verbessert werden. Für zahlreiche Anwendungsbereiche werden enorme Potenziale prognostiziert (Döbel et al., 2018). Insbesondere die Bereiche Medizin, Industrie 4.0, Internet-of-Things, Robotik, autonomes Fahren, aber auch viele weitere Anwendungsgebiete erwarten durch ML und Künstliche Intelligenz weitreichende Transformationen (Chatzilygeroudis et al., 2021; Helm et al., 2020). Durch seine vielfachen Einsatzbereiche und Optimierungspotenziale hat sich ML zu einem globalen und strategisch hochrelevanten Faktor für Wissenschaft und Wirtschaft entwickelt. Digitalisierung und ML halten Einzug im geschäftlichen Leben und sind Innovationstreiber für die Optimierung von Prozessen oder ermöglichen gar komplett neuartige Geschäftsmodelle (Döbel et al., 2018). Aber auch aus dem Privatleben ist die Nutzung digitaler Services, die auf ML-Verfahren basieren, nicht mehr wegzudenken. Google, Airbnb, Spotify oder Amazon sind beispielhafte Unternehmen, die Verbrauchern viele Aufgaben erleichtern. Verbraucher sind es gewohnt, Services zur Unterstützung in den verschiedensten Lebensbereichen zu nutzen, z. B. zum Musikhören, in der Kommunikation oder zum Preisvergleich von Stromanbietern oder Flugreisen (Otto & Österle, 2016).
Grundsätzlich bezweckt ML die Generierung von Wissen aus Erfahrung, indem Lernalgorithmen ein Modell aus Daten entwickeln. Bei den ML-Verfahren werden Daten verarbeitet und verwertet, sodass wichtige Erkenntnisse generiert und erhebliche Wettbewerbsvorteile für Unternehmen erlangt werden können (Sarker, 2021; Shaheamlung et al., 2020). Um sinnvolle Erkenntnisse aus den Daten generieren zu können und effektive, faktenbasierte Entscheidungen zu treffen, ist eine hohe Datenqualität (DQ) essenzielle Voraussetzung (Becker et al., 2019). Entscheidungen und Empfehlungen können nur so gut sein wie die Daten, aus denen sie abgeleitet werden. Dieses Konzept ist auch als garbage in, garbage out Prinzip bekannt (Rearich, 2021). Als klassisches Beispiel für mangelhafte DQ können fehlende Werte in einem Informationssystem angeführt werden, die ein unvollständiges Bild der Realwelt zeigen. So kann es geschehen, dass falsche Entscheidungen abgeleitet werden (Ridzuan & Zainon, 2019).
Neben fehlenden Werten gibt es jedoch noch zahlreiche weitere Probleme an DQ, die als Datenqualitätsdefekte (DQ-Defekte) bezeichnet werden. Andere Forscher, die DQ-Defekte literaturbasiert untersuchen, fokussieren sich auf einen bestimmten DQ-Defekt und analysieren diesen eingehend. So untersuchen z. B. Harsurinder et al. (2019) unausgewogene Klassengrößen in Trainingsdaten mit den Möglichkeiten, diesen DQ-Defekt zu adressieren. In den meisten Fällen erfolgt die Betrachtung von DQ-Defekten gar noch spezifischer, indem die verschiedenen Varianten einer konkreten Methodik analysiert werden, die einen DQ-Defekt adressieren. Beispielsweise Song et al. (2022) untersuchen Varianten von Deep Neural Networks zur Adressierung von falschen bzw. unsicheren Label-Informationen. Da DQ allerdings ein sehr breites und vielseitiges Konstrukt ist und viele verschiedene Probleme bestehen können, ist eine derartige Sicht auf DQ-Defekte sehr einseitig. Eine übergreifende Analyse, die mehrere DQ-Defekte bei ML-Verfahren gemeinsam analysiert, findet sich in der einschlägigen Literatur nicht. Doch nicht nur die DQ-Defekte werden oftmals zu einseitig betrachtet, sondern auch die Möglichkeiten zur Optimierung der DQ sind sehr vielfältig. Eine übergreifende Analyse könnte zudem aufzeigen, welche Gemeinsamkeiten und Unterschiede in den Methoden bestehen, die zur Adressierung unterschiedlicher DQ-Defekte eingesetzt werden.
ML-Verfahren müssen zusätzlich aktuellen Entwicklungen aus dem Big Data-Umfeld gerecht werden. Im Laufe der Jahre haben sich aus dem Big-Data Umfeld zahlreiche Anforderungen entwickelt, denen konventionelle ML-Verfahren u. U. nicht mehr gerecht werden können (Zhou et al., 2017). Die aus dieser Entwicklung resultierenden Herausforderungen können unter den 4Vs von Big Data (Volume, Velocity, Variety und Veracity) zusammengefasst werden (L’heureux et al., 2017; Sivarajah et al., 2017). Aus diesem Grund ist es erforderlich, die Analyse von DQ-Defekten dahingehend zu untersuchen, welchen Anforderungen gängige ML-Verfahren noch nicht gerecht werden. Aus dieser Untersuchung sollen Implikationen für künftige Forschung resultieren.
Basierend auf der Grundlage der identifizierten Forschungslücke verfolgt die vorliegende Arbeit folgende Forschungsfrage: Welche Methoden gibt es in der Literatur, Datenqualitätsdefekte in ML-Verfahren zu adressieren, wie können diese Methoden strukturiert werden und welche weiteren Studien sollten dahingehend unternommen werden?
Diese Forschungsfrage soll innerhalb der folgenden Kapitel eingehend bearbeitet und beantwortet werden. Als Grundlage der Arbeit werden im kommenden Kapitel 2 die wichtigsten Konzepte von Machine Learning und DQ vorgestellt. Zusätzlich werden formale Definitionen der Datenqualitätsdimensionen (DQ-Dimensionen) gegeben, um als Basis herauszufinden, in welchen Fällen ein DQ-Defekt vorliegt. Kapitel 3 beschreibt die Methodik des Systematic Literature Reviews (SLR), die zur Identifikation sowie Ausarbeitung der DQ-Defekte und Adressierungsmethoden angewandt wurde. Die erarbeiteten Ergebnisse der Literaturarbeit werden in Kapitel 4 deskriptiv aufgezeigt. In Kapitel 5 folgt eine tiefgreifende Diskussion der methodischen Vorgehensweise und der konzeptionellen Unterteilung von DQ-Defekten und Adressierungsmethoden. Die Ergebnisse werden eingehen evaluiert und Implikationen für künftigen Forschungsbedarf aufgezeigt. Das abschließende Fazit, in dem die wichtigsten Erkenntnisse zusammengefasst sind, folgt in Abschnitt 6.
2 Begriffsdefinitionen und theoretische Grundlagen
In diesem Kapitel werden die wichtigsten Konzepte um ML in Kapitel 2.1 sowie von DQ in Kapitel 2.2 betrachtet, um den Kontext der Arbeit zu bilden. Die DQ-Dimensionen, aus deren Perspektive die Analyse dieser Arbeit erfolgt, werden in Kapitel 2.3 näher beschrieben und formal definiert, um festzulegen, in welchen Fällen ein DQ-Defekt vorliegt.
2.1 Maschinelles Lernen
ML ist ein Teilbereich von KI und bezweckt die Generierung von Wissen aus Erfahrung, indem Lernalgorithmen ein Modell aus Daten entwickeln. Bei ML-Verfahren werden Daten verarbeitet und verwertet, sodass Muster und Zusammenhänge festgestellt und wichtige Erkenntnisse, Vorhersagen, Regeln, Empfehlungen oder Vergleichbares generiert werden (Heinrich et al., 2021; Sarker, 2021; Shaheamlung et al., 2020). Die Lernalgorithmen können in vier verschiedene Haupttypen klassifiziert werden: Supervised Learning, Unsupervised Learning, Semi-Supervised Learning und Reinforcement Learning.
Beim Supervised Learning wird ein Lernalgorithmus aus einem gelabelten Datensatz, bestehend aus Merkmalen und Merkmalsausprägungen für Instanzen, abgeleitet. Die Label stellen z. B. Klassifizierungen dar, wie Krebserkrankung vs. keine Krebserkrankung. Die Funktion des Supervised Learning zielt darauf ab, eine Beziehung der Beispielinstanzen mit deren Merkmalen und Merkmalsausprägungen (Input) und den jeweiligen Labeln (Output) abzubilden. Das Modell kann dann bei neuen Datensätzen numerische Werte schätzen (Regression) oder Datensätze in kategorische Untergruppen klassifizieren (Classification) (Heinrich et al., 2021; Nashaat et al., 2021). Beim Unsupervised Learning hingegen gibt es weder gelabelten Datensätze als Inputdaten noch vorgegebene Zielvariablen. Algorithmen zielen darauf ab, Muster und Strukturen in Datensätzen ohne menschliche Einflussnahme herauszufinden. Die gelernten Zusammenhänge können bei neuen Datensätzen angewandt werden, um z. B. beim Clustering, der Association Analysis oder der Anomaly Detection diese Muster oder Klassifikationen erneut zu identifizieren (Mahesh, 2020; Sarker, 2021). Semi-Supervised Learning stellt eine Kombination aus Lernmethoden des Supervised und Unsupervised Learning dar. Dadurch sollen Algorithmen mit besonders hoher Performance entstehen. Gelabelte Datensätze sind in der Praxis oft schwer oder teuer zu akquirieren bzw. es ist aufwändig, Datensätze manuell mit Labeln zu versehen. Nicht gelabelte Datensätze hingegen können vergleichsweise einfach gesammelt werden und sind in großen Mengen verfügbar. Semi-Supervised Learning nutzt gelabelte und nicht gelabelte Datensätze, indem die verwendeten Algorithmen zunächst mit gelabelten und anschließend mit ungelabelten Daten trainiert werden. Gelabelte Datensätze helfen zuerst, Muster und Beziehungen zwischen In- und Output zu verstehen. Bei den ungelabelten Daten werden anschließend Outputs prognostiziert. Die Outputs mit den höchsten Konfidenzwerten werden im nächsten Schritt zu den gelabelten Daten hinzugefügt, um den Algorithmus neu zu trainieren und weiter zu optimieren (Devgan et al., 2020; Zhu). Semi-Supervised Learning bietet in der Praxis zahlreiche Einsatzmöglichkeiten und findet zunehmend Verwendung, aber nicht alle Zwecke eignen sich für diese hybride Methodik. Es kann zum Clustering oder zur Classification eingesetzt werden, beispielsweise in der Betrugserkennung, Klassifizierung von Texten, Proteinsequenzen oder webbasierten Inhalten (Devgan et al., 2020; Sarker, 2021). Reinforcement Learning beschäftigt sich mit der Frage, wie ein Agent (ein System bzw. ein Modell) mit der Umwelt interagieren sollte, um eine Art kumulative Belohnung zu maximieren oder ein Risiko zu minimieren (Mohammed et al., 2016). Statt mit Input- und Output-Daten zu lernen, werden der Status eines Systems, ein Ziel und eine Liste möglicher Aktionen mit deren Bedingungen bereitgestellt. Das ML-Modell erlernt mittels mehrerer Versuche und deren direkten Rückmeldungen der Umwelt eigenständig und iterativ, wie der Gesamtgewinn maximiert werden kann (Heinrich et al., 2021). Beim Schach erhält der Agent beispielsweise nach jeder Aktion von der Umwelt neue Informationen über die Positionen der Figuren auf dem Spielbrett, eventuell auch Belohnungen (der Gegner verliert eine Figur; Gesamtgewinn) oder Bestrafungen (Verlust einer Figur; Gesamtniederlage) (Paaß & Hecker, 2020). Verfahren des Reinforcement Learning werden bei Computer- und Brettspielen sowie in der Robotik, im autonomen Fahren oder in der Logistik eingesetzt (Sarker, 2021).
Diese vier ML-Typen werden dazu eingesetzt, verschiedenste Arten von Aufgabenstellungen (Classification, Regression etc.) zu erledigen. Bei der Classification, die in der Regel dem Supervised Learning zuzuordnen ist, soll für jede Instanz eines Datensatzes eine Zielkategorie prognostiziert werden. Bei einer binären Klassifizierungsaufgabe gibt es zwei mögliche Klassen, in die eine Instanz eingeordnet werden kann, wie „wahr“ oder „falsch“. Eine Klassifizierung kann auch anhand von mehr als zwei Klassen erfolgen, z. B. die Einordnung verschiedener Netzwerkangriffe in der IT-Sicherheit in verschiedene Klassen. Als gängige Verfahren sind Deep Neural Networks, Naive Bayes, k-Nearest Neighbor (kNN), Support Vector Machines (SVM) und Decision Tree zu nennen (Saranya & Manikandan, 2020; Sarker, 2021). Mittels einer Regression, welche sich ebenfalls dem Supervised Learning zuordnen lässt, bilden eine oder mehrere Inputvariablen auf eine stetige, numerische Variable als Output ab. ML-Algorithmen optimieren die Koeffizienten zu den Inputvariablen, um eine minimale Vorhersageabweichung im Modell zu erreichen. Der Hauptunterschied zwischen Regression und Classification besteht darin, dass Classification -Algorithmen kontinuierliche Variablen als Ergebnis vorhersagen, eine Regression hingegen stetige Variablen (Kang et al., 2020; Sarker, 2021; Talbi, 2021). Ein Cluster ist ein Teil der Daten, die eine bestimmte Ähnlichkeit zueinander aufweisen und sich gleichzeitig von anderen Clustern unterscheiden. Techniken des Clustering aus dem Unsupervised Learning dienen dazu, selbstständig relevante Untergruppierungen bzw. Cluster in Datensätzen zu identifizieren, ohne vorab Hypothesen zu den Eigenschaften zu definieren, welche die Untergruppen besitzen könnten (Badillo et al., 2020; Han et al., 2011). Je nach Beschaffenheit der Daten können die Clustering -Ansätze auf Aufteilungsmethoden, Dichte, Hierarchie, Gittern, einem Modell oder Bedingungen basieren. Gängige Verfahren sind hierbei unter anderem k-Means Clustering, Fuzzy c-Means Clustering, Mean-Shift Clustering oder Spectral Clustering (Chun-Wei et al., 2020; Sarker, 2021).
Anomaly Detection ist ebenfalls dem Unsupervised Learning zuzuordnen. Ähnlich wie beim Clustering werden Daten in Untergruppen kategorisiert. Die zu keiner Gruppe zugehörigen Ausreißer stellen Anomalien dar (Kang et al., 2020). Association Analysis ist ein regelbasiertes Verfahren des Unsupervised Learning, das kausale Strukturen zwischen Variablen, Muster, Korrelationen oder Assoziationen in großen Datensätzen aufdeckt (Agrawal et al., 1993; Talbi, 2021). Beispielsweise in der Analyse von Warenkörben ist diese Analyse interessant, um herauszufinden, welche Artikel von Konsumenten oft gemeinsam gekauft werden (Gölzer & Cato, 2019). Oft genutzte Verfahren der Association Analysis sind Apiori, FP-growth und Eclat (Saranya & Manikandan, 2020).
2.2 Datenqualität
DQ kann definiert werden als das Maß für die Übereinstimmung der Daten, die in einem Informationssystem dargestellt werden, mit denselben Daten, die in der Realwelt vorliegen (Orr, 1998). Ein DQ-Defekt liegt demnach vor, wenn Daten in einem Informationssystem von den Daten der realen Welt abweichen. Eine typische Ursache stellen fehlende Werte in einer Datenbank dar, sodass ein von der Realität abweichendes Bild gezeigt wird. Defekte an DQ können jedoch sehr vielseitig sein.
Zur Untersuchung von DQ bieten sich DQ-Dimensionen an. Die Dimensionen unterteilen und strukturieren das breite Konstrukt der DQ und werden häufig bei der Arbeit mit DQ eingesetzt. Darauf basierend werden Metriken eingesetzt, um DQ-Defekte messbar und quantifizierbar zu machen. Nur mittels quantitativer Metriken kann eingeschätzt werden, ob die Daten möglicherweise unzureichende Qualität aufweisen und daraus abgeleitete Entscheidungen auf einer fehlerhaften Grundlage fußen. Durch eine quantitative ex post Betrachtung kann zudem kontrolliert werden, ob die auf DQ ausgerichteten Maßnahmen erfolgreich waren (Naumann, 2007). Darüber hinaus ist es auch aus ökonomischer Perspektive entscheidend zu bewerten, welche Maßnahmen umgesetzt werden. Nur Maßnahmen zur Optimierung der DQ, bei denen die Vorteile die Kosten überwiegen, sollten umgesetzt werden (Heinrich & Hristova et al., 2018). DQ-Dimensionen bieten sich daher als passende Hilfestellung zur Untersuchung und Verbesserung von DQ an (Batini & Scannapieco, 2016). In der Literatur finden sich verschiedene Ansätze DQ in diverse Dimensionen zu kategorisieren (siehe z. B. Batini & Scannapieco, 2016; Orr, 1998; Wang & Strong, 1996). Oft verwendete DQ-Dimensionen umfassen Korrektheit, Konsistenz, Vollständigkeit, Aktualität, Zugänglichkeit oder Interpretierbarkeit (Han et al., 2011; Otto & Österle, 2016).
Für diese Arbeit gilt, dass die Adressierung eines DQ-Defektes dann vorliegt, wenn der in der untersuchten Literatur beschriebene DQ-Defekt die formale Definition einer DQ-Dimension erfüllt und diese verbessert. Als DQ-Dimensionen werden in der vorliegenden Arbeit Accuracy, Completeness, Consistency und Currency betrachtet. Die Auswahl dieser vier Dimensionen erfolgt aus dem Grund, dass diese vier DQ-Dimensionen als relevanteste DQ-Dimensionen erachtet werden können. Diese vier DQ-Dimensionen sind am häufigsten Gegenstand der Betrachtung von DQ mittels DQ-Dimensionen. Catarci & Scannapieco (2002) zeigen sechs weitere Veröffentlichungen auf, in denen DQ mittels DQ-Dimensionen untersucht wird. Lediglich die DQ-Dimensionen Accuracy, Completeness, Consistency und Currency werden als DQ-Dimensionen von allen sechs Autoren verwendet (Bovee et al., 2003; Jarke et al., 1999; Naumann, 2002; Redman, 1996; Wand & Wang, 1996; Wang & Strong, 1996). Nach Catarci & Scannapieco (2002) stehen u. a. diese vier Dimensionen als stellvertretend für DQ. Auch Wand & Wang (1996) erwähnen, dass eben diese vier DQ-Dimensionen häufig in diesem Kontext erwähnt werden, obwohl keine einheitlichen Definitionen existieren. Nach Orr (1998) kann kein Informationssystem eine DQ von 100% aufweisen, da dies einer perfekten Übereinstimmung der Daten im System mit der realen Welt gleichkommen würde. Ihm gemäß sollte ein Informationssystem vielmehr in der Lage sein, eine Datenbasis für Organisationen zu stellen, mit der fundierte Entscheidungen getroffen werden können. Hierfür spielen insbesondere Accuracy, Currency und Consistency eine entscheidende Rolle (Orr, 1998). Die Completeness ist in diesem Zusammenhang nicht außer Acht zu lassen. Han et al. (2011) führen an, dass mangelnde DQ in der Praxis zumeist durch mangelnde Completeness, Accuracy und Consistency charakterisiert sind, aber auch Currency einen Einfluss auf die DQ hat.
Diese Ausführungen zeigen auf, dass Accuracy, Completeness, Currency und Consistency sich als Standard bei der Untersuchung von DQ mittels DQ-Dimensionen herausgebildet haben. Die wichtigsten Aspekte der DQ werden von den vier DQ-Dimensionen abgedeckt, weshalb die Analyse in dieser Arbeit somit aus der Perspektive dieser vier DQ-Dimensionen erfolgt.
2.3 Datenqualitätsdimensionen
In diesem Abschnitt werden die vier in dieser Arbeit zu untersuchenden DQ-Dimensionen näher erläutert. In der Fachliteratur gibt es verschiedene Definitionen, die ein unterschiedliches intuitives Verständnis hervorrufen können. Mittels formaler Definitionen wird festgehalten, wann ein DQ-Defekt bei den DQ-Dimensionen in dieser Arbeit vorzufinden ist.
2.3.1 Accuracy
Für Accuracy als das Maß für die Korrektheit finden sich in der Fachliteratur unterschiedliche Definitionen (Wand & Wang, 1996). Nach Sessions & Valtorta (2006) gibt Accuracy an, wie nah ein Datensatz an der Realität ist, die er abbildet. Eine ähnliche Begriffsbestimmung findet sich bei Batini & Scannapieco (2016), die Accuracy als Nähe zwischen v und v’ bezeichnen, die den Realwert von Daten und dessen Repräsentation im Informationssystem abbilden. Für Even & Shankaranarayanan (2007) gilt ein Datenelement als ungenau, wenn ein Wert nicht denjenigen der realen Welt abbildet. Weitere Definitionen anderer Autoren sind unter Heinrich et al. (2012) aufgelistet. Die Messung bzw. Bewertung der Accuracy erfolgt üblicherweise anhand des Grads korrekter Daten an der Gesamtzahl an Daten in einem System bzw. anhand ihrer Fehlerrate (Cappiello et al., 2004; Fisher et al., 2009; Redman, 1998; Redman, 2005).
Gründe für mangelnde Accuracy können sehr vielfältig sein: Neben Fehler bei der Datenerfassung durch Mensch oder Maschine können Nutzer auch bewusst Falschangaben machen, wenn die Angabe personenbezogener Daten wie Geburtstag, Alter oder Adresse obligatorisch ist und sie diese Daten nicht teilen möchten. Auch systemseitig können Fehler bei der Datenverarbeitung auftreten, z. B. Berechnungsfehler bei Algorithmen (Han et al., 2011; Wechsler & Even). Treten Mängel hinsichtlich der Datenkorrektheit auf, stellt deren Identifikation und Behebung eine aufwändige und kostenintensive Prozedur dar (Even & Shankaranarayanan, 2007). Die reine Ansicht und Bewertung der Datensätze reicht in den meisten Fällen nicht aus, sondern die Validierung muss mittels eines Vergleiches zu den Realwerten erfolgen. Dies ist insbesondere bei umfangreichen Datensätzen sehr mühsam und zugleich teuer. Auch ist der Zugang zu Realwerten oftmals nicht gegeben, was eine Validierung erschwert. In jedem Falle ist eine mangelhafte Accuracy problematisch, da Datensätze für die entsprechenden ML-Verfahren möglicherweise nicht mehr herangezogen werden können. Andernfalls basieren Erkenntnisse und Prognosen auf mangelhafter Qualität (Wechsler & Even). Um Kosten und Aufwand gering zu halten und die Eignung der Datensätze für deren ML-Verfahren zu gewährleisten, empfiehlt es sich, den Grad der Accuracy zu optimieren.
Für diese Arbeit gilt, dass ein DQ-Defekt der Accuracy dann vorliegt, wenn ML-Algorithmen Daten ungenau verarbeiten, gemessen am Grad der Korrektheit der Daten. Adressierungsmethoden sollen einen höheren Grad an Korrektheit der Daten bezwecken. Damit sollen ML-Algorithmen, die auf Daten der Realwelt angewandt werden, diese je nach Aufgabenstellung möglichst korrekt klassifizieren, clustern, Prognosen treffen etc.
2.3.2 Completeness
Batini et al. (2009) analysieren verschiedene Definitionen anderer Autoren für die Completeness. Sie konkludieren, dass ein gemeinsames Verständnis für diese Dimension existiert. Sie gibt den Grad wieder, zu dem ein gegebener Datensatz die Menge von Objekten der zugehörigen Realwelt beinhaltet. Bei der DQ-Dimension Completeness spielen NULL-Werte eine entscheidende Rolle, die als in der Realwelt existierende Werte gelten, aber in den Daten nicht erfasst sind (Batini et al., 2009). Es ist in diesem Zusammenhang wichtig zwischen Daten zu unterscheiden, die fehlen, weil sie nicht existieren, und existierenden Realweltdaten, die nicht erfasst sind. Ein Unternehmen, das die Kontaktdaten seiner Kunden gespeichert hat, muss z. B. bei den E-Mailadressen zwischen nicht erfassten E-Mailadressen und Kunden, die keine E-Mailadresse besitzen, differenzieren. Wenn die Person über eine E-Mailadresse verfügt und in der Datenbank fehlt, wirkt sich dies negativ auf die Completeness aus. Nicht existierende E-Mailadressen hingegen wirken sich neutral aus (Catarci & Scannapieco, 2002). Gemäß Batini et al. (2009) erfolgt die Berechnung der Completeness als Relation zwischen vollständigen Werten und der Gesamtzahl an Werten, sowohl auf Ebene einzelner Tupel als auch auf Ebene der gesamten im System abgebildeten Daten.
Datensätze können aufgrund verschiedener Ursachen unvollständig sein. Fehlende Informationen wie Adressdaten sind bei einer Verkaufstransaktion nicht ohne Zutun des Kunden zu ergänzen. Daten können ebenso fehlen, wenn sie bei der Eingabe als nicht relevant empfunden, zu einem späteren Zeitpunkt dennoch benötigt werden. Hardware-Fehlfunktionen können ebenso einen Systemeintrag verhindern. Fehlende Datensätze müssen möglicherweise geschätzt oder anderweitig abgeleitet werden (Han et al., 2011).
Für diese Arbeit gilt, dass ein DQ-Defekt der Completeness dann vorliegt, wenn Daten als NULL-Werte in den Systemen vorliegen. Diese NULL-Wert Daten sind unbekannt, allerdings ist ein Wert in der Realwelt vorhanden. Mittels verschiedener Methoden und Techniken sollen die unbekannten Werte der Realwelt rekonstruiert, geschätzt oder anderweitig adressiert werden, sodass die Ergebnisse von ML-Algorithmen möglichst nicht durch fehlende Werte beeinträchtigt sind.
2.3.3 Consistency
Bei Consistency wird in der Fachliteratur zwischen drei Arten unterschieden. Viele Autoren wie z. B. Wand & Wang (1996) interpretieren Consistency als Semantic Consistency, d. h. als die inhaltliche Widerspruchsfreiheit der Datenwerte. Consistency wird in diesem Sinne auch als „Eigenschaft, dass die Attributwerte eines Datenprodukts keine logischen Widersprüche aufweisen“ (Hinrichs, 2002, S. 30) definiert. Dies trifft beispielsweise bei einer Postleitzahl und der dazu passenden Stadt oder einem Vornamen und dem zugehörigen Geschlecht zu (Catarci & Scannapieco, 2002). Eine andere Sichtweise stammt von Naumann (2002) und Wang & Strong (1996), die diese DQ-Dimension als Representational Consistency auslegen und darunter die gleiche Darstellung von Daten in stets derselben Formatierung verstehen. Blake & Mangiameli (2009) beschreiben neben diesen beiden Arten noch die Form der Data Integrity im Kontext der Consistency, die Integritätsbeschränkungen in relationalen Modellen umfasst. Hierzu gehören Entitäts-, referentielle, Domänen-, Spalten und benutzerdefinierte Integrität (Blake & Mangiameli, 2009; Lee et al., 2004). U. a. ist die data integrity verletzt, wenn Attributwerte außerhalb von Spalten- oder Bereichswerten liegen. Eine Verletzung der Entitätsintegrität kann zu redundanten Daten führen, die ebenso Inkonsistenzen aufweisen können (Blake & Mangiameli, 2009).
Die Erkennung von Inkonsistenzen kann unter gewissen Umständen automatisiert erfolgen, die Bereinigung ist jedoch nur unter hohem Zeit- und Kostenaufwand möglich, da Rückfragen an Betroffene gestellt werden müssen (Ballou & Pazer, 2003; Hinrichs, 2002). Daher ist es im Interesse von Organisationen, Inkonsistenzen zu vermeiden und einer aufwändigen Bereinigung vorzubeugen.
In dieser Arbeit wird die Semantic Consistency betrachtet. Diese kann bewertet werden als Grad, zu dem untersuchte Daten widerspruchsfrei sind (Batini & Scannapieco, 2016; Heinrich & Klier et al., 2018; Redman, 1996). Ein DQ-Defekt der Consistency liegt vor, wenn semantische Widersprüche oder Inkonsistenzen bei Daten existieren.
2.3.4 Currency
Unter Currency versteht man die Bewertung der Aktualität bzw. Zeitnähe von Daten. In der englischsprachigen Fachliteratur wird in diesem Kontext oft der Begriff Timeliness als Synonym verwendet, sowie auch in dieser Arbeit. Verschiedene Definitionen für Currency finden sich bei Heinrich et al. (2012) und Batini & Scannapieco (2016). Zeitnähe wird auch gedeutet als „Eigenschaft, dass Attributwerte bzw. Tupel eines Datenprodukts jeweils dem aktuellen Diskurszustand entsprechen, d.h. nicht veraltet sind“ (Hinrichs, 2002, S. 31). Nach Pipino et al. (2002) spiegelt Currency wider, wie aktuell die Daten für den geplanten Verwendungszweck sind, für den sie gespeichert wurden. Currency drückt aus, wie aktuell ein Datensatz noch ist, der zu einem Zeitpunkt in der Vergangenheit korrekt gespeichert wurde und sich im Zeitverlauf geändert haben könnte. Der Wert könnte durch die Änderung nicht mehr korrekt und aktuell sein (Heinrich & Hristova, 2014; Heinrich & Klier, 2011; Pipino et al., 2002). Im Zusammenhang zeitbezogener DQ-Dimensionen kommt bei vereinzelten Autoren auch das Konzept der Volatility zur Sprache. Diese kann verstanden werden als Zeitdauer, die angibt, wie lange Daten valide sind (Batini & Scannapieco, 2016; Catarci & Scannapieco, 2002). Die Volatility wird in dieser Arbeit nicht näher betrachtet, da sie in der Fachliteratur nur selten erwähnt und daher als weniger relevant erachtet wird.
Die Currency wird im Wesentlichen durch drei Faktoren beeinflusst. Zum einen durch die Anpassungsgeschwindigkeit, die es für eine Anpassung von Daten im System nach Änderungen der Realwelt bedarf. Zum anderen durch die Häufigkeit der Änderungen der Realwelt. Der dritte Faktor betrifft den Zeitraum, in dem die Daten genutzt werden. Sind veraltete Daten im System gespeichert, wird ein vergangener und somit nicht korrekter Status der Realwelt wiedergegeben (Wand & Wang, 1996). Je nach Zweck, für den die Daten verwendet werden, wirkt sich die Verwendung veralteter Daten negativ auf die Effizienz von Organisationen aus. Als Beispiel sind Änderungen der Adresse oder des Familienstandes eines Kunden anzuführen. Zum Zeitpunkt der Datenerfassung sind die Angaben korrekt, nehmen aber im Zeitverlauf mit einer bestimmten Wahrscheinlichkeit ab (Wechsler & Even).
Ein DQ-Defekt der Currency liegt vor, wenn Änderungen der Realwelt aufgetreten sind, sodass gespeicherte Daten nicht mehr valide sind. DQ-Defekte der Currency liegen ebenso vor, wenn ML-Verfahren auf einer bestimmten Datenverteilung konstruiert wurden, im Zeitverlauf jedoch eine Veränderung eingetreten ist, sodass die gelernte Datenverteilung nicht mehr valide ist.
3 Methodik
Die Forschungsfrage aus Abschnitt 1 soll mittels einem SLR beantwortet werden. Ein SLR zählt als qualitative Forschungsmethodik und bewertet ein Forschungsthema unter Verwendung einer transparenten und vertrauenswürdigen Methodik. Mittels eines SLRs sollen alle verfügbaren Forschungsergebnisse, die für eine bestimmte Forschungsfrage oder ein Themengebiet von Interesse sind, bewertet und interpretiert werden. Die Suche und Analyse sollen möglichst unvoreingenommen durchgeführt, und die Ergebnisse nicht autororientiert, sondern konzeptorientiert dargestellt werden (Kitchenham et al., 2007; Levy & Ellis, 2006; Webster & Watson, 2002). In der vorliegenden Arbeit wurde die Methodik zur Konzeption und Durchführung der Suche nach Primärliteratur von Kitchenham et al. (2007) angewandt, da diese Methodik insbesondere für den Bereich des Software Engineering geeignet ist. Dies zeigt sich bei einer Vielzahl weiterer SLRs im Kontext von ML und Data Science, bei denen ebenfalls diese Methodik angewandt wurde (siehe z. B. Kang et al., 2020; Lo et al., 2021; Rajšp & Fister, 2020; Silva et al., 2020). Mittels anschließender Synthese der Ergebnisse aus der Literatur wird die Änderung der Perspektive aus Sicht der Autoren zu Konzepten erreicht. Webster & Watson (2002) beschreiben eine mögliche Synthesemethodik, wohingegen die Synthese von Kitchenham et al. (2007) oberflächlich beschrieben ist. In Kapitel 3.1 wird zunächst die Suche nach Primärliteratur nach Kitchenham et al. (2007) beschrieben, bevor die Vorgehensweise zur Durchführung der Synthese mittels einer Konzeptmatrix nach Webster & Watson (2002) in Kapitel 3.2 erläutert wird.
3.1 Strategie und Durchführung des Suchverfahrens
In diesem Abschnitt wird die Suchstrategie inklusive der verwendeten Suchparameter dargelegt. Darin inbegriffen ist der konkrete Auswahlprozess, die Literaturdatenbanken und die angewandte Suchbegriffabfolgen, In- und Exklusionskriterien, die Qualitätsbewertung der Literatur sowie eine Auflistung der aus der Primärliteratur extrahierten Informationen.
3.1.1 Prozess zur Auswahl relevanter Primärliteratur
In Abbildung 3-1 ist der Ablauf der durchgeführten Suche schematisch dargestellt. Zunächst wurden mit Hilfe von drei Literaturdatenbanken (Kapitel 3.1.2) die Suchbegriffabfolgen (Kapitel 3.1.3) angewandt und die jeweils 500 nach Relevanz sortierten zuerst gezeigten Ergebnisse weiter analysiert. Um die für die Forschungsfrage relevanten Artikel zu ermitteln, wurden hierfür passende In- und Exklusionskriterien (Kapitel 3.1.4) in den nachfolgenden Schritten herangezogen. Zunächst wurden die Titel analysiert und die geeigneten Publikationen in einer Tabelle, der sog. Konzeptmatrix, gesammelt (siehe Bildausschnitt in Abbildung 3-3). Nach Aussortierung der Duplikate wurden von den verbleibenden Artikeln der Abstract und die Conclusion untersucht. Die Volltexte der verbleibenden Artikel wurden eingehend analysiert. Die wichtigsten Informationen zur Beantwortung der Forschungsfrage wurden extrahiert und in der Konzeptmatrix gesammelt (Kapitel 3.1.5). Nach der Analyse dieser vorläufigen Ergebnisse wurden zur Komplettierung vereinzelte ergänzende Suchen durchgeführt (Kapitel 3.1.6).
Abbildung 3- 1 Suchstrategie bei der Durchführung des SLRs in der vorliegenden Arbeit
Abbildung in dieser Leseprobe nicht enthalten
3.1.2 Verwendete Literaturdatenbanken
Für die Recherche nach Primärliteratur wurden die drei Literaturdatenbanken (1) ACM, (2) ProQuest und (3) EBSCOhost ausgewählt. Zentrale Entscheidungskriterien für die Wahl dieser drei Literaturdatenbanken waren der Zugriff auf Journals mit hoher Qualität sowie die technische Umsetzbarkeit der Durchführung der Suche.
Levy & Ellis (2006) haben die 50 am besten bewerteten Journals aus dem Bereich der Informationssysteme aufgelistet, die zur Durchführung eines SLRs empfohlen werden. Diese Journals sind in einer Matrix aufgelistet, die den Zugriff auf diese Journals über Literaturdatenbanken aufzeigen. Vor allem ProQuest greift auf ein breites Spektrum hochqualitativer Literatur auf, ACM und EBSCOhost stellen hierzu passende Ergänzungen dar. Insgesamt konnte auf 34 der 50 bestbewerteten Journals zugegriffen werden. Neben der hohen Qualität der Journals war die technischen Umsetzbarkeit zur Suchdurchführung bei den drei Datenbanken gegeben. Zudem standen weitere technische Möglichkeiten zur Sucheingrenzung zur Verfügung. Bei ACM ist dies z. B. die Herausfilterung unpassender short paper und reiner Abstracts oder bei ProQuest können Artikeln hinsichtlich der Themengebiete durchsucht werden. Andere Literaturdatenbanken eignen sich für die Spezifika dieser Suche hingegen nicht. Für die vorliegende Suche wurde ein Suchstring mit einer hohen Anzahl logischer AND-/OR-Operatoren angewandt. Die Anzahl an Operatoren ist bei einigen Literaturdatenbanken (wie z. B. Elsevier) begrenzt, sodass die technische Umsetzbarkeit nicht gegeben gewesen wäre.
3.1.3 Herangezogene Suchbegriffabfolgen
Um relevante Primärliteratur zu ermitteln, müssen die Literaturdatenbanken nach passenden Suchbegriffen durchsucht werden. Suchbegriffe können mittels logischer Operatoren (z. B. AND, OR) zu Suchbegriffabfolgen verknüpft werden, um die Relevanz der Ergebnisse zu erhöhen. Die Schlüsselwörter selbst wurden ermittelt, indem die zur Beantwortung der Forschungsfrage passende „Zielliteratur“ analysiert wurde (siehe z. B. Aggarwal, 2007; Baraldi & Enders, 2010; Elaidi et al., 2018; Favieiro & Balbinot, 2019; Soda, 2011). Diese „Zielliteratur“ wurde auf gemeinsame Begriffsverwendungen innerhalb der Schlüsselwörter, dem Abstract und dem Volltext untersucht. Gemeinsamkeiten haben sich besonders im Abstract gefunden, weshalb für die Suchstrategie vorwiegend der Abstract durchsucht wurde.
Abbildung 3- 2 Kategorisierung der Suchbegriffe zur Ermittlung geeigneter Primärliteratur in den drei Literaturdatenbanken
Abbildung in dieser Leseprobe nicht enthalten
Die Suchbegriffe teilen sich schließlich in drei Kategorien ein, die mit einem AND-Operator verknüpft wurden. Begriffe innerhalb der Kategorien wurden mittels OR-Operator verbunden. Die Kategorien mit den entsprechenden Suchbegriffen sind in Abbildung 3-2 dargestellt. Kategorie 1 umfasst die wichtigsten Typen von ML aus Kapitel 2.1, Kategorie 2 die vier DQ-Dimensionen aus Kapitel 2.3 sowie gängige DQ-Defekte aus der Zielliteratur und Synonyme davon. Kategorie 3 bezieht sich auf Literatur mit Adressierungsmethoden. Mittels der Verknüpfung der drei Kategorien anhand von AND-Operatoren müssen in einem Artikel Begriffe aus allen drei Kategorien auftreten, damit dieser als Ergebnis der Suche angezeigt wird.
Grundsätzlich werden in allen Datenbanken dieselben Begriffe verwendet, mit dem Ziel, die Literatur zur Bearbeitung der Forschungsfrage möglichst vollständig abzudecken. Da sich die Funktionalitäten der Suche zwischen den Literaturdatenbanken unterscheiden, ist es notwendig, die Suchbegriffabfolge je nach Spezifika der Datenbank in geringem Ausmaß anzupassen. Beispielsweise können bei den Datenbanken unterschiedliche zusätzliche Filter gesetzt werden. Die verwendeten Suchbegriffabfolgen sind in Tabelle 3-1, Tabelle 3-2 und Tabelle 3-3 dargestellt. Die Suche wurde vom 23.11.2021 bis 27.11.2021 durchgeführt und die 500 zuerst gezeigten, nach Relevanz sortierten Titel für die weitere Analyse verwendet.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 3- 1 Verwendete Suchbegriffabfolge in der Literaturdatenbank ACM
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 3- 2 Verwendete Suchbegriffabfolge in der Literaturdatenbank ProQuest
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 3- 3 Verwendete Suchbegriffabfolge in der Literaturdatenbank EBSCOhost
3.1.4 In- und Exklusionskriterien und Qualitätsbewertung
Mithilfe der folgenden In- und Exklusionskriterien wurde sichergestellt, dass in der Endauswahl lediglich die für die Beantwortung der Forschungsfrage relevanten Artikel enthalten sind. Diese Kriterien fanden bei allen Teilschritten bei der Durchführung der Suchstrategie Anwendung. Nur Artikel, die die folgenden vier Kriterien erfüllten, wurden im Weiteren für die Analyse berücksichtigt:
- Kriterium 1: Der Artikel zielt auf die Adressierung von DQ Defekten bei ML-Verfahren ab.
- Kriterium 2: Der Artikel lässt sich der zielgerichteten Optimierung einer oder mehreren der DQ-Dimensionen Accuracy, Completeness, Consistency oder Currency zuordnen.
- Kriterium 3: Die Sprache des Artikels ist Englisch.
- Kriterium 4: Der Zugriff auf den Volltext des Artikels ist gegeben.
Darüber hinaus empfehlen Kitchenham et al. (2007), Levy & Ellis (2006) und Webster & Watson (2002), nur hochqualitative Primärliteratur in die Endauswahl einzubeziehen. Daher können zusätzlich zu den In-/Exklusionskriterien qualitative Kriterien oder Metriken definiert werden, die eine qualitative Bewertung der gefundenen Literatur vornehmen (siehe z. B. bei Slob et al., 2021). Statt aufwändige Metriken zu entwickeln, kann auf die ausschließliche Verwendung von Artikeln, die von Fachleuten geprüft ist, eingeschränkt werden, was in dieser Arbeit erfolgt ist. Bei den in dieser Studie verwendeten Literaturdatenbanken wurde die Suche daher auf peer-reviewed Literatur gefiltert (ProQuest; EBSCOhost) bzw. über die Datenbank wurde ausschließlich auf peer-to-peer geprüfte Literatur zugegriffen (ACM).
3.1.5 Datenextraktion
Während des Leseprozesses wurden Informationen aus der Literatur gesammelt und in der Konzeptmatrix festgehalten. In Tabelle 3-4 sind diese aus der Endauswahl extrahierten Informationen kategorisch dargestellt. Ein Bildausschnitt der Konzeptmatrix findet sich in Abbildung 3-3. In der Konzeptmatrix sind die Artikel des SLRs in den Zeilen gesammelt. Die Spalten enthalten die Elemente, die in Tabelle 3-4 aufgelistet sind. Bei ML-Typ, ML-Task, ML-Algorithmus, Anwendungsgebiet, DQ-Dimension, DQ-Defekt, angewandtes Verfahren und Methodenklassifizierungen wurde jeder Unterkategorie eine eigene Spalte zugeordnet. In den Zellen der Konzeptmatrix wurde die Ziffer 1 eingefügt, um Zuordnungen zu kennzeichnen.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 3- 4 Extrahierte Informationen aus der Primärliteratur
Abbildung 3- 3 Bildausschnitt zur Konzeptmatrix, in der die Artikel in den Zeilen den DQ-Dimensionen, DQ-Defekten, Adressierungsmethoden etc. in Spalten zugeordnet sind
Abbildung in dieser Leseprobe nicht enthalten
Einige Autoren (z. B. Abeysinghe et al., 2018; Chakraborttii & Litz, 2020; Faker & Dogdu, 2019) thematisieren parallel mehrere Adressierungsmethoden in demselben Artikel. Alle Adressierungsmethoden wurden separat erfasst und in der Konzeptmatrix als sog. Dublette gekennzeichnet (siehe hierzu beispielhaft Zeilen 9 und 18 in Abbildung 3-3). Dieses Vorgehen ermöglichte es, mehrere Adressierungsmethoden aus einzelnen Artikeln zu erfassen und gleichzeitig die quantitative Grundlage der Analysen in Kapitel 4 nicht zu verfälschen. Die Dubletten wurden für die Wiedergabe z. B. der Anwendungsbereiche oder Artikelanzahl der Literaturdatenbanken herausgefiltert, während sie für alle Analysen zu DQ-Defekten und Adressierungsmethoden inkludiert wurden. In Kapitel 4 ist die Herausfilterung bzw. der Einbezug von Dubletten jeweils gekennzeichnet. Insgesamt wurden aus 37 Artikeln (teilweise auch mehrere) Dubletten erfasst.
Bei der Datenextraktion wurden auch diejenigen Fälle berücksichtigt, in denen die Adressierung eines DQ-Defektes einen vorgelagerten Schritt vor weiteren Analysen und Verfahren der Autoren darstellt. In Fällen, in denen die Adressierungsmethode nicht für sich allein angewandt werden kann, sondern in das Gesamtkonstrukt integriert sein muss, wurde das Gesamtkonstrukt als Adressierungsmethode erfasst. In wenigen Fällen wurden auch mit einzelnen Verfahren parallel mehrere DQ-Defekte adressiert (z. B. bei Heru et al., 2021). Diese wurden als sog. hybride Methoden separat erfasst und werden in Kapitel 4.3.6 gesondert betrachtet.
3.1.6 Ergänzend durchgeführte Suchverfahren
Nach der Durchführung der Suchstrategie wurde das vorläufige Gesamtergebnis analysiert und inhaltliche Lücken identifiziert. Der Großteil der Autoren (z. B. Dogo et al., 2021; Lobato et al., 2015) beschreiben in den untersuchten Artikel allgemein die Methoden, mit denen der jeweils thematisierte DQ-Defekt adressiert werden kann. Vereinzelt werden Taxonomien zur Unterteilung von Addressierungsmethoden vorgeschlagen. Des Weiteren leiten viele Autoren in der Conclusion Implikationen für künftige Forschung ab, d. h. wie das jeweils untersuchte Konzept weiterentwickelt werden kann. Für die vorliegende Untersuchung wurden hilfreich erscheinende Stellen gekennzeichnet und am Ende mit dem vorläufigen Gesamtergebnis abgeglichen. Auf diese Weise war es möglich, Inhaltslücken in den vorläufigen Gesamtergebnissen gezielt zu identifiziert.
Die Ergänzungssuche wurde auf Google Scholar (https://scholar.google.com/) und in der Literaturdatenbank IEEE Explore (https://ieeexplore.ieee.org/) durchgeführt. Über letztere konnte auf qualitativ hochwertige Literatur zugegriffen werden, die zudem eine passende Ergänzung zu den drei Literaturdatenbanken nach der Auflistung von Levy & Ellis (2006) darstellt. In Tabelle 3-5 sind die 39 Artikel der Ergänzungssuche, die im finalen Gesamtergebnis berücksichtigt wurden, dargestellt. Wie in Abbildung 3-1 zum Gesamtvorgehen bereits ersichtlich, wurde die Daten- und Informationsextraktion der Ergänzungssuchen passender Artikel direkt durchgeführt. Die zugehörigen DQ-Defekte und Auffindungsorte sind der untenstehenden Übersicht ebenfalls zu entnehmen. Die Ergänzungssuchen wurden vorwiegend auf IEEE Explore durchgeführt, da sich die Qualität und Relevanz der Ergebnisse als deutlich passender herausstellte als diejenigen auf Google Scholar.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 3- 5 Artikel der Ergänzungssuche nach DQ-Defekt und Auffindungsort
3.2 Synthese der Suchergebnisse
Ziel der Synthese ist es, aus den Inhalten der Artikel zusammengehörige Konzepte abzuleiten, sodass nicht mehr die Autoren, sondern die Konzepte im Zentrum der Betrachtung stehen. Hierfür schlagen Webster & Watson (2002) eine Synthesemethodik mit Hilfe einer Konzeptmatrix vor, in der die Artikel in Zeilen und die Konzepte in Spalten abgebildet werden. In dieser Arbeit stellen Konzepte die DQ-Defekte und Adressierungsmethoden dar.
Die Adressierungsmethoden werden in dieser Arbeit mit Hilfe von häufig angewandten Verfahren bzw. Lernalgorithmen (siehe Kapitel 4.3.1.1) sowie Methodenklassifizierungen (siehe Kapitel 4.3.1.2) charakterisiert. Während des Analyseprozesses stachen bestimmte Verfahren bzw. Lernalgorithmen aufgrund ihrer vielfachen Anwendung in verschiedenen Adressierungsmethoden hervor. Die Auswahl dieser Verfahren bzw. Lernalgorithmen wurde auf die am häufigsten angewandten Verfahren reduziert. Auf diese Verfahren konzentriert sich die weitere Analyse dieser Arbeit. Die Methodenklassifizierungen wurden auf ähnliche Weise innerhalb iterativer Leseprozesse ermittelt. Manche Autoren (z. B. Francis & George, 2020) geben auch Hinweise auf häufig angewandte Methodenklassifizierungen, was ebenfalls einen Anhaltspunkt zur Ermittlung der häufigsten Methodenklassifizierungen dargestellt hat.
Auch die Unterteilung der Adressierungsmethoden zu den jeweiligen DQ-Defekten erfolgte in iterativen Schritten. Nachdem die Literatur vollständig erfasst und die Informationen extrahiert wurden, wurden diese nach Gemeinsamkeiten in der Konzeptmatrix untersucht. Ebenso wurden Hinweise von Autoren auf übliche Unterteilungen von Adressierungsmethoden herangezogen, wie z. B. die Unterteilung von Verfahren der Imputation in Single und Multiple Imputation (Jain & Xu, 2021). Für jeden DQ-Defekt erfolgte die Kategorisierung der Adressierungsmethoden gesondert, um die jeweiligen Charakteristika der DQ-Defekte zu berücksichtigen. Anhand der zuerst vorgenommenen Unterteilung war es möglich, inhaltliche Lücken für Ergänzungssuchen gezielt festzustellen. Die Unterteilungen der Adressierungsmethoden konnten auf diese Weise sukzessive und iterativ weiter verfeinert und verfestigt werden.
4 Darstellung der Ergebnisse
In diesem Kapitel werden die Ergebnisse des SLRs deskriptiv aufgezeigt. Nach den allgemeinen Ergebnissen der SLR Recherche in Kapitel 4.1 werden die herausgearbeiteten DQ-Defekte kategorisch nach deren DQ-Dimensionen in Kapitel 4.2 dargestellt. Darauf aufbauend werden in Kapitel 4.3 die Methoden aufgezeigt, mit denen diese DQ-Defekte adressiert werden. Abschließend werden in Kapitel 4.4 die DQ-Defekte in Zusammenhang mit den Adressierungsmethoden gebracht und in einem übergreifenden Gesamtüberblick betrachtet.
4.1 Allgemeine Ergebnisse der Literaturrecherche
Abbildung 4- 4 Anzahl der Artikel je Schritt der Suchstrategie (exkl. Dubletten)
Abbildung in dieser Leseprobe nicht enthalten
Aus den 1.500 untersuchten Artikeln ergab sich eine Endauswahl von 171 Artikeln, mit zusätzlich 39 Artikeln aus Ergänzungssuchen. Inklusive Dubletten führte dies zu 291 erfassten Adressierungsmethoden (ACM: 106; ProQuest: 76; EBSCOhost: 70; Ergänzungssuchen: 39). Abbildung 4-4 illustriert die Anzahl an Artikeln je Schritt und je Literaturdatenbank der Suchstrategie. Die meisten Artikel wurden direkt bei der Durchsicht der Titel ausgeschlossen (884). Duplikate wurden nur wenige (10) aufgefunden. Anhand des Abstracts und der Conclusion wurden 185 Artikel aussortiert, anhand der Prüfung der Volltexte 250 weitere. Bei ProQuest und EBSCOhost wurden je Schritt eine ähnliche Anzahl an Artikeln aussortiert. Im Vergleich dazu wurden bei ACM zu Beginn eine geringere Anzahl ausgeschlossen, im späteren Verlauf dagegen eine höhere Anzahl. Dubletten, die zur Erfassung mehrerer Adressierungsmethoden innerhalb einer Publikation erfasst wurden, sind aus Abbildung 4-4 exkludiert, da hier die Anzahl der Publikationen betrachtet werden soll.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4-4 Anzahl der Artikel je Schritt der Suchstrategie (exkl. Dubletten)
Das Veröffentlichungsjahr der Publikationen ist in Abbildung 4-5 dargestellt. Die meisten Artikel stammen aus den drei Jahren 2019 bis 2021. Ab 2013 ist ein klar steigender Trend bis 2020 zu erkennen, der im Jahr 2021 jedoch leicht zurückging. Bis auf neun Artikel entstammen die Publikationen aus dem Zeitraum ab 2010. Zur Beurteilung des Trends sollte berücksichtigt werden, dass die Datenerhebung und -extraktion im November 2021 durchgeführt wurde. Folglich könnten im Jahr 2021 weniger Publikationen vorliegen. Das Jahr 2022 sollte demzufolge aus der Trendbeurteilung ausgeschlossen werden, da dies ein Artikel aus der Ergänzungssuche darstellt. Die Anzahl an Publikationen wird hier betrachtet, weshalb Dubletten in Abbildung 4-5 exkludiert wurden.
Abbildung 4- 5 Veröffentlichungsjahre der Publikationen im Zeitverlauf (exkl. Dubletten)
Abbildung in dieser Leseprobe nicht enthalten
Hinsichtlich der in Tabelle 4-6 abgetragenen Publikationstypen entstammen bei EBSCOhost und ProQuest sämtliche Quellen aus Zeitschriftenaufsätzen, wobei sich bei ACM der Großteil auf Tagungsberichte konzentriert (60 von 70). Die Artikel der Ergänzungssuche entstammen ebenfalls zum Großteil Tagungsberichten (29 von 38).
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 4- 6 Publikationstypen nach Literaturdatenbank (exkl. Dubletten)
Tabelle 4-7 zeigt differenziert nach den Literaturdatenbanken die Anzahl an Publikationen auf, die DQ-Defekte hinsichtlich Accuracy, Completeness, Consistency und Currency adressieren. Hinsichtlich Accuracy und Completeness zeigt sich bei den drei Literaturdatenbanken und in der Gesamtsumme eine höherer Anzahl als bei den verbleibenden zwei Dimensionen. Die Artikel zu den DQ-Dimensionen Consistency und Currency wurden hauptsächlich in Ergänzungssuchen und in ACM ermittelt. In Tabelle 4-7 steht die Anzahl an Adressierungsmethoden im Fokus, weshalb Dubletten inkludiert sind.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 4- 7 Zuordnung der erfassten Gesamtergebnisse/Publikationen zu Literaturdatenbanken und DQ-Dimensionen (inkl. Dubletten)
Betrachtet man die Gesamtsumme von 308 in Tabelle 4-7, so zeigt sich ein höherer Wert im Vergleich zu den 291 erfassten Adressierungsmethoden. So sind z. B. bei ACM 106 Adressierungsmethoden erfasst im Vergleich zu den 115 abgebildeten Methoden in Tabelle 4-7. Diese Diskrepanz kommt durch hybride Methoden zustande, bei denen eine Adressierungsmethode mehrere DQ-Defekte parallel adressiert. In Summe wurden 291 Adressierungsmethoden erfasst, die 308-mal einen der vier DQ-Defekte adressieren. In der Konzeptmatrix wurde bei beiden zugehörigen DQ-Dimensionen die Ziffer 1 eingetragen (siehe hierzu z. B. Zeile 12 der Konzeptmatrix in Abbildung 3-3), weshalb sich ein abweichender höherer Wert ergibt.
In Tabelle 4-8 sind die erfassten ML-Typen nach ML-Tasks aufgeschlüsselt mit der Anzahl, wie oft die jeweiligen Kombinationen erfasst wurden. Der Großteil der Verfahren (269 von 293) besteht aus Supervised Learning in Kombination mit Classification oder Regression, sowie beim Unsupervised Learning mit Clustering oder Anomaly Detection. In wenigen Fällen konnten auch von diesen Standardfällen abweichende Kombinationen festgestellt werden, wie z. B. ein Verfahren der Unsupervised Classification bei Gashler et al. (2016). Lediglich sechs Artikel wurden dem Semi-Supervised Learning und nur zwei Artikel der Association Analysis zugeordnet. Auch hier ist bei Betrachtung der Gesamtsumme ein Unterschied festzustellen. Die Abweichung in Höhe von 2 zu den 291 erfassten Adressierungsmethoden entstammt dem Reinforcement -Verfahren von Berti-Equille (2019), welches Clustering, Classification und Regression anwendet. Alle übrigen Adressierungsmethoden wurden nur einem ML-Typ und einer ML-Task zugeordnet. Da in Tabelle 4-8 die Anzahl der ermittelten ML-Verfahren, die DQ-Defekte aufweisen, betrachtet wird, sind Dubletten inkludiert.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 4- 8 Anzahl der Kombinationen von ML-Typen und ML-Tasks, die DQ-Defekte aufweisen (inkl. Dubletten)
Die Extraktion von ML-Typ, ML-Task und ML-Algorithmus verfolgte den Zweck, die ML-Verfahren, die DQ-Defekte aufweisen, näher zu charakterisieren. Als Beispiel kann die Publikation von Braytee et al. (2019) genannt werden, die eine Supervised Classification mittels einer SVM untersuchen. In diesem Artikel ist die Accuracy der SVM durch Irrelevant Features, die zu hoher Dimensionalität führt, beeinträchtigt. In diesem Beispiel umfasst der ML-Typ Supervised, die ML-Task Classification und der ML-Algorithmus ist eine SVM.
Welche DQ-Defekte bei welchen ML-Typen und ML-Tasks auftreten, geht aus den Publikationen hervor. Jedoch sind ML-Algorithmen, bei denen die DQ-Defekte auftreten, in vielen Publikationen nicht benannt. Viele Autoren (z. B. Ai-jun & Peng, 2020; Mostafa et al., 2020) zeigen eigens entwickelte ML-Algorithmen auf, die einen DQ-Defekt bei einem bestimmten ML-Typ und ML-Task adressieren. In diesen Adressierungsmethoden kann kein ML-Algorithmus extrahiert werden, der einen DQ-Defekt aufweist. Auch bei vorverarbeitenden Verfahren, die DQ-Defekte vor der weiteren Verwendung für bestimmte ML-Typen und ML-Tasks adressieren, sind in vielen Fällen keine ML-Algorithmen benannt. Beispielsweise vergleichen Ghorbani & Desmarais (2017) in einer komparativen Untersuchung Imputation Verfahren, um fehlende Daten für binäre Classification -Verfahren zu schätzen. Zwar wird die Wirksamkeit der Imputation Verfahren mittels verschiedener Classification -Algorithmen verglichen bzw. verifiziert, dennoch geht nicht klar hervor, ob dieser DQ-Defekt bei diesen ML-Algorithmen auftritt. Dennoch wird dadurch aufgezeigt, dass die Adressierungsmethoden bei den ML-Algorithmen, mit denen die vorgestellte Adressierungsmethode verifiziert wurde, bei Vorherrschen des DQ-Defektes wirksam sind.
Die Nichtbenennung von ML-Algorithmen erschwerte eine artikelübergreifend konsistente Zuordnung der ML-Algorithmen. Um für diese Arbeit dennoch zu erfassen, bei welchen ML-Algorithmen DQ-Defekte auftreten, wurden Zuteilungsregeln abgeleitet und konsistent verwendet. Grundsätzlich wurde diejenige Zuordnung vorgenommen, die den ML-Algorithmus, für welches DQ-Defekte existieren, am besten repräsentierte. Nachstehende Regeln fanden in folgender Priorisierung Anwendung, sofern kein ML-Algorithmus benannt wurde, bei dem der DQ-Defekt existiert:
(1) Im Falle datenbereinigender bzw. vorverarbeitender Adressierungsmethoden: Einordnung anhand der Algorithmen, die nach der Datenvorverarbeitung angewandt wurden, z. B. SVM Algorithmus nach Normalization der Daten bei Luor (2015);
(2) Einordnung anhand der ML-Algorithmen, die innerhalb der Publikation zur Verifikation der Wirksamkeit der vorgestellten Adressierungsmethode angewandt wurden;
(3) Einordnung anhand von ML-Task und ML-Algorithmus der Adressierungsmethode, sofern kein anderer ML-Algorithmus angewandt wird;
[...]
- Arbeit zitieren
- Matthias Wittmann (Autor:in), 2022, Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren, München, GRIN Verlag, https://www.grin.com/document/1287956
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.