Grin logo
de en es fr
Shop
GRIN Website
Texte veröffentlichen, Rundum-Service genießen
Zur Shop-Startseite › BWL - Sonstiges

Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren

Titel: Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren

Masterarbeit , 2022 , 101 Seiten , Note: 1,3

Autor:in: Matthias Wittmann (Autor:in)

BWL - Sonstiges
Leseprobe & Details   Blick ins Buch
Zusammenfassung Leseprobe Details

Welche Methoden gibt es in der Literatur, Datenqualitätsdefekte in maschinellen Lernverfahren zu adressieren, wie können diese Methoden strukturiert werden und welche weiteren Studien sollten dahingehend unternommen werden?

Im Laufe der vergangenen Jahre haben die Fortschritte im Bereich des Maschinellen Lernens einen beachtlichen Beitrag zur Weiterentwicklung von Künstlicher Intelligenz und kognitiven Systemen geleistet. Künftig wird es kaum Bereiche geben, die nicht durch Technologien basierend auf Machine Learning und KI entscheidend verbessert werden. Insbesondere die Bereiche Medizin, Industrie 4.0, Internet-of-Things, Robotik, autonomes Fahren, aber auch viele weitere Anwendungsgebiete erwarten durch Machine Learning und Künstliche Intelligenz weitreichende Transformationen.

Bei Machine Learning-Verfahren werden Daten verarbeitet und verwertet, sodass wichtige Erkenntnisse generiert und erhebliche Wettbewerbsvorteile für Unternehmen erlangt werden können. Um sinnvolle Erkenntnisse aus den Daten generieren zu können und effektive, faktenbasierte Entscheidungen zu treffen, ist eine hohe Datenqualität essenzielle Voraussetzung. Entscheidungen und Empfehlungen können nur so gut sein wie die Daten, aus denen sie abgeleitet werden. Zudem müssen Machine Learning-Verfahren den aktuellen Entwicklungen aus dem Big Data Umfeld gerecht werden, deren Herausforderungen auch konventionelle Machine Learning-Verfahren nicht genügen.

Datenqualität wird in der Literatur jedoch als vielseitiges Konstrukt beschrieben und unter Zuhilfenahme verschiedener Datenqualitätsdimensionen weiter untergliedert. In der vorliegenden Arbeit werden die vier in der Literatur am häufigsten untersuchten Datenqualitätsdimensionen Genauigkeit (Accuracy), Vollständigkeit (Completeness), Konsistenz (Consistency) sowie Aktualität/ Zeitnähe (Currency bzw. Timeliness) betrachtet. Mithilfe einer strukturierten Literaturrecherche werden Datenqualitätsdefekte, die sich den zuvor genannten DQ-Dimensionen zuordnen lassen, strukturiert, zugehörige Adressierungsmethoden beschrieben und Implikationen für weitere Forschung gegeben. Die Ergebnisse basieren auf einer Untersuchung von mehr als 1.500 von Fachleuten untersuchten (peer-reviewed) Journals und Tagungsberichten.

Leseprobe


Inhaltsverzeichnis

1 Einleitung und Forschungsfrage

2 Begriffsdefinitionen und theoretische Grundlagen

2.1 Maschinelles Lernen

2.2 Datenqualität

2.3 Datenqualitätsdimensionen

2.3.1 Accuracy

2.3.2 Completeness

2.3.3 Consistency

2.3.4 Currency

3 Methodik

3.1 Strategie und Durchführung des Suchverfahrens

3.1.1 Prozess zur Auswahl relevanter Primärliteratur

3.1.2 Verwendete Literaturdatenbanken

3.1.3 Herangezogene Suchbegriffabfolgen

3.1.4 In- und Exklusionskriterien und Qualitätsbewertung

3.1.5 Datenextraktion

3.1.6 Ergänzend durchgeführte Suchverfahren

3.2 Synthese der Suchergebnisse

4 Darstellung der Ergebnisse

4.1 Allgemeine Ergebnisse der Literaturrecherche

4.2 Datenqualitätsdefekte

4.2.1 Defekte der Datenqualitätsdimension Accuracy

4.2.2 Defekte der Datenqualitätsdimension Completeness

4.2.3 Defekte der Datenqualitätsdimensionen Consistency

4.2.4 Defekte der Datenqualitätsdimensionen Currency

4.3 Methoden zur Adressierung von Datenqualitätsdefekten

4.3.1 Definition der häufig eingesetzten Verfahren und Methodenklassifizierungen

4.3.1.1 Häufig verwendete ML-Verfahren

4.3.1.2 Klassifizierung von Adressierungsmethoden

4.3.2 Adressierungsmethoden der Datenqualitätsdimension Accuracy

4.3.2.1 Adressierung von Imbalanced Data

4.3.2.2 Adressierung von Incorrect/Uncertain Data

4.3.2.3 Adressierung von Incorrect/Uncertain Labels

4.3.2.4 Adressierung von Irrelevant Features

4.3.2.5 Adressierung von Irrelevant Instances

4.3.2.6 Adressierung von Not Normalized Data

4.3.3 Adressierungsmethoden der Datenqualitätsdimension Completeness

4.3.3.1 Adressierung von Incomplete Images

4.3.3.2 Adressierung von Missing Feature Values

4.3.3.3 Adressierung von Missing Features

4.3.3.4 Adressierung von Missing Labels

4.3.4 Adressierungsmethoden der Datenqualitätsdimension Consistency

4.3.5 Adressierungsmethoden der Datenqualitätsdimension Currency

4.3.5.1 Adressierung von Outdated Data

4.3.5.2 Adressierung von Outdated Model

4.3.6 Hybride Methoden zur Adressierung mehrerer Datenqualitätsdefekte

4.4 Übersicht zum Zusammenhang zwischen den Datenqualitätsdefekten und Adressierungsmethoden

5 Erkenntnisse und Diskussion der Ergebnisse

5.1 Methodische Vorgehensweise der Literaturrecherche

5.2 Konzeptionelle Unterteilung der DQ-Defekte und Adressierungsmethoden

5.3 Identifizierte Möglichkeiten zur Adressierung von Datenqualitätsdefekten

5.3.1 Übergreifende Aspekte der Suchergebnisse

5.3.2 Datenqualitätsdimensionen und Datenqualitätsdefekte

5.3.3 Adressierungsmethoden

5.3.3.1 Bewertung der Adressierungsmethoden zu Imbalanced Data

5.3.3.2 Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Data

5.3.3.3 Bewertung der Adressierungsmethoden zu Incorrect/Uncertain Labels

5.3.3.4 Bewertung der Adressierungsmethoden zu Irrelevant Features

5.3.3.5 Bewertung der Adressierungsmethoden zu Irrelevant Instances

5.3.3.6 Bewertung der Adressierungsmethoden zu Not Normalized Data

5.3.3.7 Bewertung der Adressierungsmethoden zu Incomplete Images

5.3.3.8 Bewertung der Adressierungsmethoden zu Missing Feature Values

5.3.3.9 Bewertung der Adressierungsmethoden zu Missing Features

5.3.3.10 Bewertung der Adressierungsmethoden zu Missing Labels

5.3.3.11 Bewertung der Adressierungsmethoden zu Inconsistent Data

5.3.3.12 Bewertung der Adressierungsmethoden zu Outdated Data

5.3.3.13 Bewertung der Adressierungsmethoden zu Outdated Model

5.3.3.14 Bewertung der hybriden Methoden

5.3.4 Bewertung der häufig angewandten Verfahren und Methodenklassifizierungen

6 Fazit

Zielsetzung & Themen

Die Arbeit untersucht wissenschaftlich, welche Methoden in der Literatur existieren, um Datenqualitätsdefekte in Systemen des Maschinellen Lernens zu adressieren. Ziel der Forschungsarbeit ist es, diese Adressierungsmethoden systematisch zu strukturieren, Gemeinsamkeiten und Unterschiede aufzuzeigen sowie Implikationen für künftigen Forschungsbedarf abzuleiten.

  • Systematische Literaturanalyse von Methoden zur Behebung von Datenqualitätsdefekten.
  • Fokussierung auf die Datenqualitätsdimensionen Accuracy, Completeness, Consistency und Currency.
  • Strukturierung der Adressierungsmethoden entlang von ML-Verfahren und Methodenklassifizierungen.
  • Identifikation und Bewertung hybrider Lösungsansätze für komplexe Datenqualitätsprobleme.
  • Diskussion aktueller Herausforderungen im Big-Data-Kontext.

Auszug aus dem Buch

4.2.1 Defekte der Datenqualitätsdimension Accuracy

Imbalanced Data: Daten werden dann als Imbalanced Data bezeichnet, wenn die Anzahl an Instanzen einer Klasse entweder sehr gering (Minderheitsklasse) oder sehr hoch (Mehrheitsklasse) im Vergleich zu denjenigen anderer Klassen ist (Bhatia et al., 2021). ML-Algorithmen, die auf Datensätzen mit einer derartigen Ungleichheit trainiert werden, können die Klasse bei Anwendung auf Daten der Realwelt weniger genau ermitteln. Insbesondere die Erkennungsgenauigkeit der Klasse mit wenigen Instanzen leidet unter diesem DQ-Defekt, obwohl die Minderheitsklasse häufig im Interesse des ML-Verfahrens steht, wie z. B. bei der Betrugserkennung (Kim et al., 2017; Phua et al., 2004). Imbalanced Data erfüllt demnach die Definition der DQ-Dimension Accuracy.

Incorrect/Uncertain Data: Der Fall falscher bzw. unsicherer Daten ist dann zutreffend, wenn zwischen den Daten im System und den Informationen der Realwelt eine Unsicherheit besteht (uncertain data) bzw. diese mit hoher Wahrscheinlichkeit oder Sicherheit falsch sind (incorrect data). ML-Algorithmen, die auf falschen oder unsicheren Daten trainiert sind, können ihre ML-Task mit einer geringeren Korrektheit erfüllen (Dallachiesa et al., 2019). Demnach sind sie der DQ-Dimension Accuracy nach der Definition aus Kapitel 2.3.1 zuzuordnen. Die Unsicherheit bzw. Inkorrektheit kann durch verschiedene Ursachen zustande kommen, sie beruht aber oftmals auf fehlerhafter Datenerfassung (Gao & Wang, 2010; Lio & Liu, 2018).

Incorrect/Uncertain Labels: Hierbei stehen im Vergleich zu Incorrect/Uncertain Data nicht die Daten, sondern die Label im Fokus der Betrachtung. Dies trifft beispielsweise auf die Klassifizierung von Bildern zu, die mit falschen Labeln versehen sind (so z. B. bei Qi et al., 2012). ML-Algorithmen, die mit unsicheren bzw. falsch gelabelten Daten trainiert sind, können auf Daten der Realwelt angewandt diese weniger korrekt klassifizieren, womit die Accuracy-Definition erfüllt ist.

Zusammenfassung der Kapitel

1 Einleitung und Forschungsfrage: Diese Einleitung führt in die Relevanz des Maschinellen Lernens ein und verdeutlicht, dass eine hohe Datenqualität Grundvoraussetzung für verlässliche Modelle ist, um das "garbage in, garbage out" Problem zu minimieren.

2 Begriffsdefinitionen und theoretische Grundlagen: Dieses Kapitel definiert die grundlegenden Konzepte des Maschinellen Lernens sowie die vier Kern-Dimensionen der Datenqualität, welche als Analysebasis für Defekte dieser Arbeit dienen.

3 Methodik: Hier wird der Prozess des Systematic Literature Review (SLR) detailliert beschrieben, einschließlich der Suchstrategie, der Datenbankauswahl, der Kriterien für die Literaturauswahl sowie der Synthese der Suchergebnisse.

4 Darstellung der Ergebnisse: Die Ergebnisse der Literaturrecherche werden deskriptiv aufbereitet, indem gefundene Datenqualitätsdefekte kategorisiert und die entsprechenden Adressierungsmethoden sowie ML-Verfahren einander zugeordnet werden.

5 Erkenntnisse und Diskussion der Ergebnisse: Dieses Kapitel bewertet kritisch die methodische Vorgehensweise, diskutiert die identifizierten Adressierungsmöglichkeiten für einzelne Datenqualitätsdefekte und leitet Implikationen für die zukünftige Forschung ab.

6 Fazit: Das Fazit fasst die wesentlichen Erkenntnisse zusammen und betont das hohe Forschungspotenzial im Bereich der Optimierung von Datenqualität sowie die Notwendigkeit hybrider Ansätze für komplexe Datenprobleme.

Schlüsselwörter

Datenqualität, Datenqualitätsdefekte, Datenqualitätsdimensionen, Maschinelles Lernen, Accuracy, Completeness, Consistency, Currency, Systematic Literature Review, Adressierungsmethoden, Imbalanced Data, Feature Selection, Imputation, Big Data, ML-Algorithmen.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Publikation befasst sich wissenschaftlich mit dem Problem der Datenqualität (DQ) in Systemen des Maschinellen Lernens. Es wird untersucht, wie Datenqualitätsdefekte (DQ-Defekte) in ML-Verfahren identifiziert und durch geeignete Methoden adressiert werden können.

Was sind die zentralen Themenfelder?

Die zentralen Themenfelder sind Datenqualität, Maschinelles Lernen, die systematische Literaturrecherche (Systematic Literature Review) sowie Methoden zur Behebung von Mängeln in Trainingsdaten, wie etwa ungleiche Klassengrößen oder fehlende Werte.

Was ist das primäre Ziel oder die Forschungsfrage?

Die zentrale Forschungsfrage lautet: Welche Methoden existieren in der Literatur, um Datenqualitätsdefekte in ML-Verfahren zu adressieren, wie können diese Methoden strukturiert werden und welche weiteren Studien sollten vorgenommen werden?

Welche wissenschaftliche Methode wird verwendet?

Die Autorin/der Autor verwendet die Methodik eines "Systematic Literature Review" (SLR), um nach einer transparenten und vertrauenswürdigen Vorgehensweise forschungsrelevante Primärliteratur zu finden, auszuwerten und konzeptorientiert zu synthetisieren.

Was wird im Hauptteil behandelt?

Im Hauptteil (Kapitel 4) werden die Ergebnisse deskriptiv aufgearbeitet. Dies umfasst die Klassifizierung gefundener DQ-Defekte (wie z.B. Imbalanced Data oder Missing Feature Values), die Zuordnung spezifischer Adressierungsmethoden (z.B. Imputation oder Resampling) sowie deren Einordnung nach Anwendungsgebieten und ML-Algorithmen.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird wesentlich durch Begriffe wie Datenqualität, Maschinelles Lernen, Systematische Literaturanalyse, DQ-Dimensionen, Imbalanced Data sowie Methoden zur Datenbereinigung und Merkmalsauswahl charakterisiert.

Was bedeutet der Begriff "garbe in, garbage out" im Kontext dieser Arbeit?

Dieser Grundsatz unterstreicht, dass die Qualität von Vorhersagen und Erkenntnissen eines Lernalgorithmus maßgeblich von der Qualität der eingegebenen Daten abhängt. Minderwertige Daten führen zwangsläufig zu fehlerhaften Modellergebnissen.

Warum spielt die Unterscheidung der "Fehlmechanismen" bei fehlenden Daten eine Rolle?

Die Unterscheidung in MCAR (Missing Completely At Random), MAR (Missing At Random) und MNAR (Missing Not At Random) ist entscheidend, da sie bestimmt, welche der verschiedenen mathematischen Adressierungsmethoden (wie Imputation) überhaupt statistisch zulässig und sinnvoll ist.

Was genau ist ein "Concept Drift"?

Ein Concept Drift beschreibt das Phänomen, dass sich die statistischen Eigenschaften der Zielvariable oder der Eingabedaten über die Zeit ändern, wodurch ein ursprünglich trainiertes ML-Modell seine Genauigkeit verliert und nicht mehr korrekt funktioniert.

Ende der Leseprobe aus 101 Seiten  - nach oben

Details

Titel
Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren
Hochschule
Universität Regensburg
Note
1,3
Autor
Matthias Wittmann (Autor:in)
Erscheinungsjahr
2022
Seiten
101
Katalognummer
V1287956
ISBN (PDF)
9783346740816
ISBN (Buch)
9783346740823
Sprache
Deutsch
Schlagworte
Datenqualität Machine Learning SLR Strukturierte Literaturrecherche Systematische Literaturrecherche Accuracy Completeness Consistency Currency Timeliness Datenqualitätsdefekt Imbalanced Data Irrelevant Data Incomplete Data Missing Data Inconsistent Data Outdated Data
Produktsicherheit
GRIN Publishing GmbH
Arbeit zitieren
Matthias Wittmann (Autor:in), 2022, Adressierung von Datenqualitätsdefekten bei maschinellen Lernverfahren, München, GRIN Verlag, https://www.grin.com/document/1287956
Blick ins Buch
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
Leseprobe aus  101  Seiten
Grin logo
  • Grin.com
  • Versand
  • Kontakt
  • Datenschutz
  • AGB
  • Impressum