Welche Methoden gibt es in der Literatur, Datenqualitätsdefekte in maschinellen Lernverfahren zu adressieren, wie können diese Methoden strukturiert werden und welche weiteren Studien sollten dahingehend unternommen werden?
Im Laufe der vergangenen Jahre haben die Fortschritte im Bereich des Maschinellen Lernens einen beachtlichen Beitrag zur Weiterentwicklung von Künstlicher Intelligenz und kognitiven Systemen geleistet. Künftig wird es kaum Bereiche geben, die nicht durch Technologien basierend auf Machine Learning und KI entscheidend verbessert werden. Insbesondere die Bereiche Medizin, Industrie 4.0, Internet-of-Things, Robotik, autonomes Fahren, aber auch viele weitere Anwendungsgebiete erwarten durch Machine Learning und Künstliche Intelligenz weitreichende Transformationen.
Bei Machine Learning-Verfahren werden Daten verarbeitet und verwertet, sodass wichtige Erkenntnisse generiert und erhebliche Wettbewerbsvorteile für Unternehmen erlangt werden können. Um sinnvolle Erkenntnisse aus den Daten generieren zu können und effektive, faktenbasierte Entscheidungen zu treffen, ist eine hohe Datenqualität essenzielle Voraussetzung. Entscheidungen und Empfehlungen können nur so gut sein wie die Daten, aus denen sie abgeleitet werden. Zudem müssen Machine Learning-Verfahren den aktuellen Entwicklungen aus dem Big Data Umfeld gerecht werden, deren Herausforderungen auch konventionelle Machine Learning-Verfahren nicht genügen.
Datenqualität wird in der Literatur jedoch als vielseitiges Konstrukt beschrieben und unter Zuhilfenahme verschiedener Datenqualitätsdimensionen weiter untergliedert. In der vorliegenden Arbeit werden die vier in der Literatur am häufigsten untersuchten Datenqualitätsdimensionen Genauigkeit (Accuracy), Vollständigkeit (Completeness), Konsistenz (Consistency) sowie Aktualität/ Zeitnähe (Currency bzw. Timeliness) betrachtet. Mithilfe einer strukturierten Literaturrecherche werden Datenqualitätsdefekte, die sich den zuvor genannten DQ-Dimensionen zuordnen lassen, strukturiert, zugehörige Adressierungsmethoden beschrieben und Implikationen für weitere Forschung gegeben. Die Ergebnisse basieren auf einer Untersuchung von mehr als 1.500 von Fachleuten untersuchten (peer-reviewed) Journals und Tagungsberichten.
Inhaltsverzeichnis
- Einleitung und Forschungsfrage
-
- Begriffsdefinitionen und theoretische Grundlagen
- Maschinelles Lernen
- Datenqualität
- Datenqualitätsdimensionen
- Accuracy
- Completeness
- Consistency
- Currency
- Methodik
- Strategie und Durchführung des Suchverfahrens
- Prozess zur Auswahl relevanter Primärliteratur
- Verwendete Literaturdatenbanken
- Herangezogene Suchbegriffabfolgen
- In- und Exklusionskriterien und Qualitätsbewertung
- Datenextraktion
- Ergänzend durchgeführte Suchverfahren
- Synthese der Suchergebnisse
- Darstellung der Ergebnisse
- Allgemeine Ergebnisse der Literaturrecherche
- Datenqualitätsdefekte
- Defekte der Datenqualitätsdimension Accuracy
- Defekte der Datenqualitätsdimension Completeness
- Defekte der Datenqualitätsdimensionen Consistency
- Defekte der Datenqualitätsdimensionen Currency
- Methoden zur Adressierung von Datenqualitätsdefekten
- Definition der häufig eingesetzten Verfahren und Methodenklassifizierungen
- Häufig verwendete ML-Verfahren
- Klassifizierung von Adressierungsmethoden
- Adressierungsmethoden der Datenqualitätsdimension Accuracy
- Adressierung von Imbalanced Data
- Adressierung von Incorrect/Uncertain Data
- Adressierung von Incorrect/Uncertain Labels
- Adressierung von Irrelevant Features
- Adressierung von Irrelevant Instances
- Adressierung von Not Normalized Data
- Adressierungsmethoden der Datenqualitätsdimension Completeness
- Adressierung von Incomplete Images
- Adressierung von Missing Feature Values
- Adressierung von Missing Features
- Adressierung von Missing Labels
- Adressierungsmethoden der Datenqualitätsdimension Consistency
- Adressierungsmethoden der Datenqualitätsdimension Currency
- Adressierung von Outdated Data
- Adressierung von Outdated Model
- Hybride Methoden zur Adressierung mehrerer Datenqualitätsdefekte
- Übersicht zum Zusammenhang zwischen den Datenqualitätsdefekten und Adressierungsmethoden
- Erkenntnisse und Diskussion der Ergebnisse
- Methodische Vorgehensweise der Literaturrecherche
- Konzeptionelle Unterteilung der DQ-Defekte und Adressierungsmethoden
- Identifizierte Möglichkeiten zur Adressierung von Datenqualitätsdefekten
- Übergreifende Aspekte der Suchergebnisse
- Datenqualitätsdimensionen und Datenqualitätsdefekte
- Adressierungsmethoden
- Bewertung der Adressierungsmethoden zu Imbalanced Data
- Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Data
- Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Labels
- Bewertung der Adressierungsmethoden zu Irrelevant Features
- Bewertung der Adressierungsmethoden zu Irrelevant Instances
- Bewertung der Adressierungsmethoden zu Not Normalized Data
- Bewertung der Adressierungsmethoden zu Incomplete Images
- Bewertung der Adressierungsmethoden zu Missing Feature Values
- Bewertung der Adressierungsmethoden zu Missing Features
- Bewertung der Adressierungsmethoden zu Missing Labels
- Bewertung der Adressierungsmethoden zu Inconsistent Data
- Bewertung der Adressierungsmethoden zu Outdated Data
- Bewertung der Adressierungsmethoden zu Outdated Model
- Bewertung der hybriden Methoden
- Bewertung der häufig angewandten Verfahren und Methodenklassifizierungen
- Fazit
Zielsetzung und Themenschwerpunkte
Die vorliegende Arbeit befasst sich mit der Untersuchung der Datenqualität im Kontext von maschinellem Lernen. Ziel ist es, ein umfassendes Verständnis der Datenqualitätsdefekte im Bereich des maschinellen Lernens zu erlangen und die gängigen Methoden zur Behebung dieser Defekte zu analysieren. Die Arbeit widmet sich der systematischen Recherche und Analyse von relevanten wissenschaftlichen Publikationen zu diesem Thema.
- Definition und Klassifizierung von Datenqualitätsdefekten im maschinellen Lernen
- Analyse der häufigsten Datenqualitätsdefekte in verschiedenen Anwendungsgebieten des maschinellen Lernens
- Bewertung der gängigen Methoden zur Adressierung von Datenqualitätsdefekten
- Identifizierung von Forschungslücken und zukünftigen Forschungsrichtungen im Bereich der Datenqualität im maschinellen Lernen
- Diskussion der Bedeutung von Datenqualität für die Validität und Zuverlässigkeit von Machine-Learning-Modellen
Zusammenfassung der Kapitel
- Einleitung und Forschungsfrage: Dieses Kapitel stellt die Forschungsfrage der Arbeit vor und erläutert die Relevanz des Themas Datenqualität im Kontext von maschinellem Lernen.
- Begriffsdefinitionen und theoretische Grundlagen: Dieses Kapitel definiert zentrale Begriffe wie Datenqualität, maschinelles Lernen und Datenqualitätsdimensionen. Es beleuchtet zudem die theoretischen Grundlagen der Datenqualität im Kontext von maschinellem Lernen.
- Methodik: Dieses Kapitel beschreibt die Methodik der Arbeit, insbesondere die Strategie und Durchführung des Suchverfahrens zur Ermittlung relevanter wissenschaftlicher Publikationen. Es werden die verwendeten Literaturdatenbanken, Suchbegriffabfolgen, In- und Exklusionskriterien und Qualitätsbewertungsverfahren erläutert.
- Darstellung der Ergebnisse: Dieses Kapitel präsentiert die Ergebnisse der Literaturrecherche. Es umfasst eine Analyse der identifizierten Datenqualitätsdefekte, der Häufigkeit verschiedener Defekttypen und der gängigen Methoden zur Behebung dieser Defekte.
- Erkenntnisse und Diskussion der Ergebnisse: Dieses Kapitel diskutiert die gewonnenen Erkenntnisse aus der Literaturrecherche und bewertet die identifizierten Möglichkeiten zur Adressierung von Datenqualitätsdefekten. Es beleuchtet die Stärken und Schwächen verschiedener Methoden und identifiziert Forschungslücken und zukünftige Forschungsrichtungen.
Schlüsselwörter
Die Arbeit konzentriert sich auf die Analyse der Datenqualität im Kontext von maschinellem Lernen. Sie behandelt wichtige Themen wie Datenqualitätsdefekte, Datenqualitätsdimensionen, Adressierungsmethoden, maschinelle Lernverfahren und die Bewertung der Wirksamkeit verschiedener Methoden zur Verbesserung der Datenqualität.
- Quote paper
- Matthias Wittmann (Author), 2022, Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren, Munich, GRIN Verlag, https://www.grin.com/document/1287956