Welche Methoden gibt es in der Literatur, Datenqualitätsdefekte in maschinellen Lernverfahren zu adressieren, wie können diese Methoden strukturiert werden und welche weiteren Studien sollten dahingehend unternommen werden?

Im Laufe der vergangenen Jahre haben die Fortschritte im Bereich des Maschinellen Lernens einen beachtlichen Beitrag zur Weiterentwicklung von Künstlicher Intelligenz und kognitiven Systemen geleistet. Künftig wird es kaum Bereiche geben, die nicht durch Technologien basierend auf Machine Learning und KI entscheidend verbessert werden. Insbesondere die Bereiche Medizin, Industrie 4.0, Internet-of-Things, Robotik, autonomes Fahren, aber auch viele weitere Anwendungsgebiete erwarten durch Machine Learning und Künstliche Intelligenz weitreichende Transformationen.

Bei Machine Learning-Verfahren werden Daten verarbeitet und verwertet, sodass wichtige Erkenntnisse generiert und erhebliche Wettbewerbsvorteile für Unternehmen erlangt werden können. Um sinnvolle Erkenntnisse aus den Daten generieren zu können und effektive, faktenbasierte Entscheidungen zu treffen, ist eine hohe Datenqualität essenzielle Voraussetzung. Entscheidungen und Empfehlungen können nur so gut sein wie die Daten, aus denen sie abgeleitet werden. Zudem müssen Machine Learning-Verfahren den aktuellen Entwicklungen aus dem Big Data Umfeld gerecht werden, deren Herausforderungen auch konventionelle Machine Learning-Verfahren nicht genügen.

Datenqualität wird in der Literatur jedoch als vielseitiges Konstrukt beschrieben und unter Zuhilfenahme verschiedener Datenqualitätsdimensionen weiter untergliedert. In der vorliegenden Arbeit werden die vier in der Literatur am häufigsten untersuchten Datenqualitätsdimensionen Genauigkeit (Accuracy), Vollständigkeit (Completeness), Konsistenz (Consistency) sowie Aktualität/ Zeitnähe (Currency bzw. Timeliness) betrachtet. Mithilfe einer strukturierten Literaturrecherche werden Datenqualitätsdefekte, die sich den zuvor genannten DQ-Dimensionen zuordnen lassen, strukturiert, zugehörige Adressierungsmethoden beschrieben und Implikationen für weitere Forschung gegeben. Die Ergebnisse basieren auf einer Untersuchung von mehr als 1.500 von Fachleuten untersuchten (peer-reviewed) Journals und Tagungsberichten.

Excerpt

Inhaltsverzeichnis

Einleitung und Forschungsfrage
- Begriffsdefinitionen und theoretische Grundlagen
Methodik

Strategie und Durchführung des Suchverfahrens

Prozess zur Auswahl relevanter Primärliteratur
Verwendete Literaturdatenbanken
Herangezogene Suchbegriffabfolgen
In- und Exklusionskriterien und Qualitätsbewertung
Datenextraktion
Ergänzend durchgeführte Suchverfahren

Synthese der Suchergebnisse

Darstellung der Ergebnisse

Allgemeine Ergebnisse der Literaturrecherche
Datenqualitätsdefekte

Defekte der Datenqualitätsdimension Accuracy
Defekte der Datenqualitätsdimension Completeness
Defekte der Datenqualitätsdimensionen Consistency
Defekte der Datenqualitätsdimensionen Currency

Methoden zur Adressierung von Datenqualitätsdefekten

Definition der häufig eingesetzten Verfahren und Methodenklassifizierungen

Häufig verwendete ML-Verfahren
Klassifizierung von Adressierungsmethoden

Adressierungsmethoden der Datenqualitätsdimension Accuracy

Adressierung von Imbalanced Data
Adressierung von Incorrect/Uncertain Data
Adressierung von Incorrect/Uncertain Labels
Adressierung von Irrelevant Features
Adressierung von Irrelevant Instances
Adressierung von Not Normalized Data

Adressierungsmethoden der Datenqualitätsdimension Completeness

Adressierung von Incomplete Images
Adressierung von Missing Feature Values
Adressierung von Missing Features
Adressierung von Missing Labels

Adressierungsmethoden der Datenqualitätsdimension Consistency
Adressierungsmethoden der Datenqualitätsdimension Currency

Adressierung von Outdated Data
Adressierung von Outdated Model

Hybride Methoden zur Adressierung mehrerer Datenqualitätsdefekte
Übersicht zum Zusammenhang zwischen den Datenqualitätsdefekten und Adressierungsmethoden

Erkenntnisse und Diskussion der Ergebnisse

Methodische Vorgehensweise der Literaturrecherche
Konzeptionelle Unterteilung der DQ-Defekte und Adressierungsmethoden
Identifizierte Möglichkeiten zur Adressierung von Datenqualitätsdefekten

Übergreifende Aspekte der Suchergebnisse
Datenqualitätsdimensionen und Datenqualitätsdefekte
Adressierungsmethoden

Bewertung der Adressierungsmethoden zu Imbalanced Data
Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Data
Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Labels
Bewertung der Adressierungsmethoden zu Irrelevant Features
Bewertung der Adressierungsmethoden zu Irrelevant Instances
Bewertung der Adressierungsmethoden zu Not Normalized Data
Bewertung der Adressierungsmethoden zu Incomplete Images
Bewertung der Adressierungsmethoden zu Missing Feature Values
Bewertung der Adressierungsmethoden zu Missing Features
Bewertung der Adressierungsmethoden zu Missing Labels
Bewertung der Adressierungsmethoden zu Inconsistent Data
Bewertung der Adressierungsmethoden zu Outdated Data
Bewertung der Adressierungsmethoden zu Outdated Model
Bewertung der hybriden Methoden

Bewertung der häufig angewandten Verfahren und Methodenklassifizierungen

Fazit

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit befasst sich mit der Untersuchung der Datenqualität im Kontext von maschinellem Lernen. Ziel ist es, ein umfassendes Verständnis der Datenqualitätsdefekte im Bereich des maschinellen Lernens zu erlangen und die gängigen Methoden zur Behebung dieser Defekte zu analysieren. Die Arbeit widmet sich der systematischen Recherche und Analyse von relevanten wissenschaftlichen Publikationen zu diesem Thema.

Definition und Klassifizierung von Datenqualitätsdefekten im maschinellen Lernen
Analyse der häufigsten Datenqualitätsdefekte in verschiedenen Anwendungsgebieten des maschinellen Lernens
Bewertung der gängigen Methoden zur Adressierung von Datenqualitätsdefekten
Identifizierung von Forschungslücken und zukünftigen Forschungsrichtungen im Bereich der Datenqualität im maschinellen Lernen
Diskussion der Bedeutung von Datenqualität für die Validität und Zuverlässigkeit von Machine-Learning-Modellen

Zusammenfassung der Kapitel

Einleitung und Forschungsfrage: Dieses Kapitel stellt die Forschungsfrage der Arbeit vor und erläutert die Relevanz des Themas Datenqualität im Kontext von maschinellem Lernen.
Begriffsdefinitionen und theoretische Grundlagen: Dieses Kapitel definiert zentrale Begriffe wie Datenqualität, maschinelles Lernen und Datenqualitätsdimensionen. Es beleuchtet zudem die theoretischen Grundlagen der Datenqualität im Kontext von maschinellem Lernen.
Methodik: Dieses Kapitel beschreibt die Methodik der Arbeit, insbesondere die Strategie und Durchführung des Suchverfahrens zur Ermittlung relevanter wissenschaftlicher Publikationen. Es werden die verwendeten Literaturdatenbanken, Suchbegriffabfolgen, In- und Exklusionskriterien und Qualitätsbewertungsverfahren erläutert.
Darstellung der Ergebnisse: Dieses Kapitel präsentiert die Ergebnisse der Literaturrecherche. Es umfasst eine Analyse der identifizierten Datenqualitätsdefekte, der Häufigkeit verschiedener Defekttypen und der gängigen Methoden zur Behebung dieser Defekte.
Erkenntnisse und Diskussion der Ergebnisse: Dieses Kapitel diskutiert die gewonnenen Erkenntnisse aus der Literaturrecherche und bewertet die identifizierten Möglichkeiten zur Adressierung von Datenqualitätsdefekten. Es beleuchtet die Stärken und Schwächen verschiedener Methoden und identifiziert Forschungslücken und zukünftige Forschungsrichtungen.

Schlüsselwörter

Die Arbeit konzentriert sich auf die Analyse der Datenqualität im Kontext von maschinellem Lernen. Sie behandelt wichtige Themen wie Datenqualitätsdefekte, Datenqualitätsdimensionen, Adressierungsmethoden, maschinelle Lernverfahren und die Bewertung der Wirksamkeit verschiedener Methoden zur Verbesserung der Datenqualität.

Excerpt out of 101 pages - scroll top

Details

Title: Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren
College: University of Regensburg
Grade: 1,3
Author: Matthias Wittmann (Author)
Publication Year: 2022
Pages: 101
Catalog Number: V1287956
ISBN (PDF): 9783346740816
ISBN (Book): 9783346740823
Language: German
Tags: Datenqualität Machine Learning SLR Strukturierte Literaturrecherche Systematische Literaturrecherche Accuracy Completeness Consistency Currency Timeliness Datenqualitätsdefekt Imbalanced Data Irrelevant Data Incomplete Data Missing Data Inconsistent Data Outdated Data
Product Safety: GRIN Publishing GmbH

Quote paper: Matthias Wittmann (Author), 2022, Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren, Munich, GRIN Verlag, https://www.grin.com/document/1287956

Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren