Diese Arbeit konzentriert sich auf die Weiterentwicklung verschiedener Integrationsansätze, um polystrukturierte Daten zusammen mit strukturierten Daten in das Data Vault Modell zu integrieren. Anhand von einem Anwendungsfall werden verschiedene Ansätze implementiert und ihre Vor- und Nachteile diskutiert. Darüber hinaus wird das Resultat diese Ansätze evaluiert, um zu prüfen, ob es die Merkmale des Data Vault Modells weiterhin erfüllt.

Heutzutage nehmen die Daten in Bezug auf Volumen, Geschwindigkeit und Vielfalt enorm zu. Diese Daten kommen sowohl als strukturierte Daten als auch als unstrukturierte Daten vor. Zu den strukturierten Daten zählen unter anderem Transaktionsdaten aus klassischen, relationalen Systemen wie beispielsweise ein Data Warehouse. Durch den Zuwachs des Datenvolumens in den vergangenen Jahren ist die Anzahl an unstrukturierten Daten wie z.B. Textdokumente, Bilder, Videos, Internet of Things (IoT) stark gestiegen.

Unternehmen sehen sich somit mit dem steigenden Volumen an Daten konfrontiert, welche aus einer Vielzahl von internen und externen Quellen geliefert werden. Hierbei besteht die Herausforderung darin, polystrukturierte Daten mit traditionellen, strukturierten Daten zu verknüpfen, um diese analysieren zu können. Dabei müssen diese Daten effizient gespeichert und integriert werden, um daraus nützliche Geschäftserkenntnisse abzuleiten.

Die traditionellen Modellierungstechniken wie der Kimball-Ansatz und der Inmon-Ansatz konzentrieren sich auf die Modellierung strukturierter Daten. Aufgrund der zunehmenden Datenmengen, die gesammelt werden, und der agilen Projektausführung werden Skalierbarkeit und Flexibilität zu immer wichtigeren Merkmalen der Datenmodellierung. Insbesondere im Hinblick auf die Flexibilität stoßen traditionelle Datenmodellierungsansätze im Data Warehousing an ihre Grenzen. Daher wurde die Data Vault Modellierung entwickelt, um diese Einschränkungen zu überwinden. Das Data Vault Modell wurde jedoch für strukturierte Daten konzipiert. Um diese strukturierten Daten mit polystrukturierten Daten zu kombinieren, muss das Data Vault Modell erweitert werden.

Extracto

Inhaltsverzeichnis

1. Einleitung

1.1 Motivation

1.2 Zielsetzung

1.3 Abgrenzung

1.4 Aufbau der Arbeit

2. Grundlagen

2.1 Die Welt der Daten

2.1.1 Daten, Informationen, Wissen

2.1.2 Dimensionen von Daten

2.1.3 Datenmodell

2.2 Modellierungstechniken

2.2.1 Strukturierte Daten

2.2.2 Halbstrukturierte Daten

2.2.3 Unstrukturierte Daten

2.3 Data Vault Modell

2.3.1 Motivation für Data Vault

2.3.2 Data Vault Grundlagen

2.3.3 Regeln der Data Vault Modellierung

2.3.4 Architektur

2.3.5 Data Vault 1.0 und 2.0

3. Stand der Technik und Forschung

3.1 Integration halbstrukturierter Daten

3.1.1 JavaScript Object Notation

3.1.2 Extensible Markup Language

3.2 Integration unstrukturierter Daten

4. Konzeption

4.1 Erweiterungen zur Integration halbstrukturierter Daten

4.1.1 Abflachen eines eingebetteten JSON-Dokuments

4.1.2 JSON-Array Daten im Data Vault Modell

4.1.3 Modellierung von XML-Dokumenten in das Data Vault Modell

4.2 Integration unstrukturierter Daten

5. Entwurf

5.1 Anwendungsfall

5.2 Zielsetzung

5.3 Analyse der Quelldaten

5.3.1 Stammdaten

5.3.2 Bewegungsdaten

5.4 Planung

5.4.1 Erstellung der ETL-Prozesse

5.4.2 Gesamtarchitektur

5.4.3 Source

5.4.4 Staging

5.4.5 Core

5.4.6 Mart

5.5 Mehrwert des Entwurfs

6. Implementierung

6.1 Eingesetzte Technologien

6.2 Beschreibung der Implementierung

6.2.1 Extraktion

6.2.2 Integration

6.2.3 Data Mart

6.3 Bereitstellung von Dashboards

7. Evaluierung

7.1 Überprüfung des Core-Datenmodells

7.1.1 Flexibilität und Erweiterbarkeit

7.1.2 Historisierung

7.2 Validierung der Daten

7.3 Optimierung des Dashboards

7.4 Bewertung der Implementierung

8. Schlussbetrachtung

8.1 Zusammenfassung

8.2 Ausblick

A. Anhang

A.1 Beigelegte CD

A.2 Datenmodell

A.3 Gespeicherte Prozedur

A.4 Dashboard

Zielsetzung & Themen

Diese Masterarbeit untersucht die Herausforderungen und Lösungsansätze für die Integration von halbstrukturierten (insbesondere JSON und XML) und unstrukturierten Daten in ein Data Vault Modell. Das primäre Ziel ist die Entwicklung von Erweiterungsmöglichkeiten für bestehende Konzepte, um eine konsistente Datenintegration in einer agilen Data-Warehouse-Umgebung zu ermöglichen, ohne die Integrität des Data Vault Modells zu gefährden.

Grundlagen der Datenmodellierung und Data Vault Architektur
Integrationstechniken für JSON- und XML-Datenformate
Konzeptionelle Ansätze zur Einbindung unstrukturierter Daten
Prototypische Implementierung in einem CRM-Anwendungsfall
Evaluierung der Flexibilität, Erweiterbarkeit und Historisierung

Auszug aus dem Buch

Mapping-Regel 1 (MR1):

„Each document id is translated into a business key, while the hash key of the hub is calculated and added to the hub.“ [KC18]

Gemäß MR1 wird für jedes Dokument eine id erstellt, die dazu beiträgt, dieses Dokument eindeutig zu identifizieren. Diese id entspricht in der Abbildung 3.6 der Customer_id. Sie wird im Hub als Business Key übersetzt. Dieser Regel nach wird ein Hub_Customer mit der Customer_id als Business Key erstellt. Ein Hash Key Customer HK wird mithilfe des Business Keys generiert.

Zusammenfassung der Kapitel

1. Einleitung: Beschreibt die zunehmende Datenflut in Unternehmen und definiert die Problemstellung der Integration polystrukturierter Daten in ein Data Vault Modell.

2. Grundlagen: Erläutert die theoretischen Grundlagen der Datenmodellierung, verschiedene Datenarten und die Funktionsweise des Data Vault Modells.

3. Stand der Technik und Forschung: Analysiert bestehende Ansätze zur Integration von halbstrukturierten und unstrukturierten Daten, insbesondere unter Verwendung von JSON und XML.

4. Konzeption: Entwickelt spezifische Erweiterungsansätze für die Integration von JSON-Array-Strukturen und XML-Dokumenten sowie Strategien für unstrukturierte Daten.

5. Entwurf: Konzipiert einen Anwendungsfall im Bereich Customer Relationship Management und plant die ETL-Prozesse sowie die Architektur für das Data Warehouse.

6. Implementierung: Dokumentiert die praktische Umsetzung der ETL-Anwendung mit Talend und die Einbindung der Daten in Power BI zur Visualisierung.

7. Evaluierung: Überprüft das implementierte Modell hinsichtlich Flexibilität, Erweiterbarkeit und Performance sowie die Korrektheit der Daten mittels Testfällen.

8. Schlussbetrachtung: Fasst die wesentlichen Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf zukünftige Forschungsmöglichkeiten.

Schlüsselwörter

Data Vault, Datenintegration, Polystrukturierte Daten, Business Intelligence, Data Warehouse, JSON, XML, Modellierung, ETL, CRM, Kundendaten, Hash-Key, Historisierung, Flexibilität, Skalierbarkeit

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit beschäftigt sich mit der Herausforderung, unterschiedlich strukturierte Daten – wie JSON und XML – in ein bestehendes Data-Vault-Modell zu integrieren, um eine einheitliche und agile Datenanalyse zu ermöglichen.

Was sind die zentralen Themenfelder?

Die zentralen Themen sind die Data-Vault-Methodik, Integrationsstrategien für halbstrukturierte Formate (JSON/XML) und die praktische Umsetzung in einem CRM-Data-Warehouse-Szenario.

Was ist das primäre Ziel oder die Forschungsfrage?

Das Ziel ist es, Mapping-Regeln und Konzepte zu entwickeln, um polystrukturierte Daten ohne Informationsverlust in ein Data-Vault-Modell zu überführen und dabei dessen Kernvorteile wie Flexibilität zu erhalten.

Welche wissenschaftliche Methode wird verwendet?

Es wird eine forschungsbasierte Methode angewandt: Analyse des aktuellen Stands der Technik, Konzeption von Mapping-Regeln, prototypische Implementierung mit ETL-Tools und anschließende Evaluation der Modellqualität anhand von Kennzahlen.

Was wird im Hauptteil behandelt?

Der Hauptteil gliedert sich in die theoretische Fundierung, die Konzeption neuer Mapping-Regeln (insb. für Arrays), den Entwurf einer Data-Warehouse-Architektur sowie die praktische Implementierung und Performance-Evaluierung.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird maßgeblich durch Begriffe wie Data Vault, Datenintegration, polystrukturierte Daten, ETL, JSON, XML und agile Modellierung charakterisiert.

Warum sind JSON-Arrays eine Herausforderung im Data Vault Modell?

JSON-Arrays repräsentieren oft 1:N-Beziehungen oder Bewegungsdaten ohne festen Identifikator. Im Data Vault Modell müssen hierfür spezielle Konstrukte wie der "Multi-Active Satellite" genutzt werden, um die Datenstruktur sauber abzubilden.

Was ist der Mehrwert der entwickelten Mapping-Regel 5?

Die Mapping-Regel 5 ermöglicht es, komplexe JSON-Array-Strukturen auf "Multi-Active Satellites" abzubilden, wodurch Transaktionsdaten effizient mit dem Hub verknüpft werden können, ohne die Modellstruktur zu kompromittieren.

Warum wurde Data Vault 2.0 für die Implementierung gewählt?

Data Vault 2.0 nutzt Hash-Keys anstelle von Sequenz-IDs. Dies eliminiert Abhängigkeiten beim Ladevorgang und ermöglicht eine deutlich bessere Parallelisierung der Datenverarbeitung bei großen Datenmengen.

Final del extracto de 129 páginas - subir

Detalles

Título: Datenintegration von polystrukturierte Daten in ein Data Vault Modell
Universidad: University of Applied Sciences Darmstadt
Calificación: 1.7
Autor: Jie Xin (Autor)
Año de publicación: 2021
Páginas: 129
No. de catálogo: V1015269
ISBN (Ebook): 9783346412775
Idioma: Alemán
Etiqueta: Data Vault DWH Big Data JSON XML
Seguridad del producto: GRIN Publishing Ltd.

Citar trabajo: Jie Xin (Autor), 2021, Datenintegration von polystrukturierte Daten in ein Data Vault Modell, Múnich, GRIN Verlag, https://www.grin.com/document/1015269

Datenintegration von polystrukturierte Daten in ein Data Vault Modell