Diese Arbeit konzentriert sich auf die Weiterentwicklung verschiedener Integrationsansätze, um polystrukturierte Daten zusammen mit strukturierten Daten in das Data Vault Modell zu integrieren. Anhand von einem Anwendungsfall werden verschiedene Ansätze implementiert und ihre Vor- und Nachteile diskutiert. Darüber hinaus wird das Resultat diese Ansätze evaluiert, um zu prüfen, ob es die Merkmale des Data Vault Modells weiterhin erfüllt.
Heutzutage nehmen die Daten in Bezug auf Volumen, Geschwindigkeit und Vielfalt enorm zu. Diese Daten kommen sowohl als strukturierte Daten als auch als unstrukturierte Daten vor. Zu den strukturierten Daten zählen unter anderem Transaktionsdaten aus klassischen, relationalen Systemen wie beispielsweise ein Data Warehouse. Durch den Zuwachs des Datenvolumens in den vergangenen Jahren ist die Anzahl an unstrukturierten Daten wie z.B. Textdokumente, Bilder, Videos, Internet of Things (IoT) stark gestiegen.
Unternehmen sehen sich somit mit dem steigenden Volumen an Daten konfrontiert, welche aus einer Vielzahl von internen und externen Quellen geliefert werden. Hierbei besteht die Herausforderung darin, polystrukturierte Daten mit traditionellen, strukturierten Daten zu verknüpfen, um diese analysieren zu können. Dabei müssen diese Daten effizient gespeichert und integriert werden, um daraus nützliche Geschäftserkenntnisse abzuleiten.
Die traditionellen Modellierungstechniken wie der Kimball-Ansatz und der Inmon-Ansatz konzentrieren sich auf die Modellierung strukturierter Daten. Aufgrund der zunehmenden Datenmengen, die gesammelt werden, und der agilen Projektausführung werden Skalierbarkeit und Flexibilität zu immer wichtigeren Merkmalen der Datenmodellierung. Insbesondere im Hinblick auf die Flexibilität stoßen traditionelle Datenmodellierungsansätze im Data Warehousing an ihre Grenzen. Daher wurde die Data Vault Modellierung entwickelt, um diese Einschränkungen zu überwinden. Das Data Vault Modell wurde jedoch für strukturierte Daten konzipiert. Um diese strukturierten Daten mit polystrukturierten Daten zu kombinieren, muss das Data Vault Modell erweitert werden.
Inhaltsverzeichnis
- einleitung
- Motivation
- Zielsetzung
- Abgrenzung
- Aufbau der Arbeit
- grundlagen
- Die Welt der Daten
- Daten, Informationen, Wissen
- Dimensionen von Daten
- Datenmodell
- Modellierungstechniken
- Strukturierte Daten
- Halbstrukturierte Daten
- Unstrukturierte Daten
- Data Vault Modell
- Motivation für Data Vault
- Data Vault Grundlagen
- Hubs
- Links
- Satellites
- Regeln der Data Vault Modellierung
- Architektur
- Data Vault 1.0 und 2.0
- stand der technik und forschung
- Integration halbstrukturierter Daten
- JavaScript Object Notation
- Extensible Markup Language
- Integration unstrukturierter Daten
- konzeption
- Erweiterungen zur Integration halbstrukturierter Daten
- Abflachen eines eingebetteten JSON-Dokuments
- JSON-Array Daten im Data Vault Modell
- Modellierung von XML-Dokumenten in das Data Vault Modell
- Integration unstrukturierter Daten
- entwurf
- Anwendungsfall
- Zielsetzung
- Analyse der Quelldaten
- Stammdaten
- Bewegungsdaten
- Planung
- Erstellung der ETL-Prozesse
- Gesamtarchitektur
- Source
- Staging
- Core
- Mart
- Mehrwert des Entwurfs
- implementierung
- Eingesetzte Technologien
- Beschreibung der Implementierung
- Extraktion
- Integration
- Data Mart
- Bereitstellung von Dashboards
- evaluierung
- Überprüfung des Core-Datenmodells
- Flexibilität und Erweiterbarkeit
- Historisierung
- Validierung der Daten
- Optimierung des Dashboards
- Bewertung der Implementierung
- schlussbetrachtung
- Zusammenfassung
- Ausblick
Zielsetzung und Themenschwerpunkte
Die Masterarbeit analysiert Ansätze zur Integration von halb- und unstrukturierten Daten in ein Data Vault Modell. Neben der Diskussion bestehender Konzepte liegt der Fokus auf der Entwicklung von Erweiterungsmöglichkeiten für die Integration von halb- und unstrukturierten Daten. Um die Lösungsansätze zu evaluieren, wird ein Data Warehouse für ein Anwendungsbeispiel konzipiert und entwickelt, wobei ein Open-Source-ETL-Tool zur Bewirtschaftung eingesetzt wird. Die Daten im Data Warehouse werden anschließend mit Hilfe von Dashboards visualisiert.
- Die Integration von halb- und unstrukturierten Daten in ein Data Vault Modell
- Die Entwicklung von Erweiterungsmöglichkeiten für die Integration von halb- und unstrukturierten Daten
- Die Konzeption und Entwicklung eines Data Warehouse auf Basis des Data Vault Modells für ein Anwendungsbeispiel
- Die Evaluierung der implementierten Lösung hinsichtlich der Integration von halb- und unstrukturierten Daten und der Fähigkeit, ein agiles Data Warehouse zu unterstützen
Zusammenfassung der Kapitel
Die Arbeit gliedert sich in acht Kapitel. Kapitel 2 führt in die Grundlagen der Datenmodellierung ein, erläutert verschiedene Datenmodelle und stellt das Data Vault Modell detailliert vor. Kapitel 3 analysiert bestehende Ansätze zur Integration von halb- und unstrukturierten Daten in das Data Vault Modell. Kapitel 4 entwickelt Erweiterungsmöglichkeiten für die Integration von halb- und unstrukturierten Daten, die auf den bestehenden Ansätzen aufbauen. Kapitel 5 konzipiert einen Anwendungsfall aus der realen Welt, um die Erweiterungsmöglichkeiten zu überprüfen. Kapitel 6 beschreibt die Implementierung des Data Warehouse auf Basis des Data Vault Modells und der entwickelten Integrationsansätze. Kapitel 7 evaluiert die Implementierung hinsichtlich der Erfüllung der Kriterien des Data Vault Modells, der Datenqualität und der Performance der Dashboards. Kapitel 8 fasst die Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf zukünftige Forschungsarbeiten.
Schlüsselwörter
Data Vault Modell, Datenintegration, halbstrukturierte Daten, unstrukturierte Daten, JSON, XML, ETL, Data Warehouse, Dashboards, Performance, Agile Data Warehouse, Polyglot Persistence
- Quote paper
- Jie Xin (Author), 2021, Datenintegration von polystrukturierte Daten in ein Data Vault Modell, Munich, GRIN Verlag, https://www.grin.com/document/1015269