Diese Arbeit handelt von der Entwicklung von Big-Data-Anwendungen.
Trotz zahlreicher Definitionsversuche ist der Begriff Big Data noch nicht klar umschrieben und galt lange als Modeerscheinung. Möglicherweise ist das Thema Big Data gerade deshalb so populär wie nie zuvor. Zunehmend wird jedoch vergessen, dass Daten ohne einen konkreten Bezug zu einem Kontext wertlos sind. Erst die zielgerichtete Nutzung macht
aus Daten eine Information, die einen Nutzen oder Mehrwert generieren kann. Jeder hat Berührungspunkte mit Big Data, ob bewusst oder unbewusst. Das macht die Auseinandersetzung mit Big Data unausweichlich, sowohl für den öffentlichen
Sektor, Unternehmen oder Privatpersonen.
Ohne Daten von einzelnen Individuen ist aber eine Umsetzung solcher Berechnungen nicht möglich. Es müssen Daten aus sehr persönlichen Lebensbereichen jedes Einzelnen zur Verfügung stehen. Hier muss zugleich ein Schutz der Daten berücksichtigt werden und Regelungen für den Umgang, sowie die Verarbeitung der Daten vorliegen. Wenn diese rechtlichen Aspekte nicht berücksichtigt werden, kann es schnell zu Misstrauen oder Befürchtungen, sowie im schlimmsten Fall zu Datenmissbrauch kommen. Die Datenspeicherung alleine reicht nicht aus, um komplexe Probleme zu lösen und einen Mehrwert zu generieren.
Die notwendigen Werkzeuge/Anwendungen müssen vorhanden sein, um aus großen Datenmengen die jeweils gewünschte Information auszulesen. Die Entwicklung und der Einsatz von Big-Data-Anwendungen nimmt somit eine zentrale Rolle beim Thema Big Data ein und wird neben den notwendigen Daten zum Hauptantrieb der Entwicklung. Es ist absehbar, dass Big Data in Zukunft immer wichtiger für die Gesellschaft und Unternehmen sein wird. Dementsprechend wird deutlich, dass Big-Data-Anwendungen gebraucht werden, um gesellschaftliche wie auch wissenschaftliche Fortschritte voranzutreiben. Angesichts der Notwendigkeit von Big-Data-Anwendungen ist es entscheidend welche Eigenschaften eine gute Big-Data-Anwendung ausmacht und was bei der Entwicklung beachtet werden soll.
Inhaltsverzeichnis
Abkürzungsverzeichnis
Formelverzeichnis
1 Die Bedeutung von Big Data
1.1 Motivation und Ziel der Arbeit
1.2 Methodischer Aufbau der Arbeit
2 Aspekte der Datenerzeugung und Datenhaltung
2.1 Daten und Informationen
2.1.1 Strukturierte Daten
2.1.2 Unstrukturierte Daten
2.1.3 Datenklassen
2.2 Speichermedien und Datenhaltungssysteme
2.2.1 Speicherkapazität
2.2.2 Computer Cluster
2.2.3 Datenbanksysteme
3 Anforderungen an Big-Data-Anwendungen
3.1 Die 5 V's
3.1.1 Volume
3.1.2 Veracity
3.1.3 Variety
3.1.4 Velocity
3.1.5 Value
3.2 Notwendige Eigenschaften jeder Anwendung
3.2.1 Allgemeingültigkeit
3.2.2 Belastbarkeit
3.2.3 Skalierbarkeit und Erweiterbarkeit
3.2.4 Fehlertoleranz
3.2.5 Lesen und Aktualisieren mit geringen Latenzzeiten
3.2.6 Ad-hoc-Abfragen und Echtzeitauswertungen
4 Umsetzung von Big-Data-Anwendungen
4.1 Lambda-Architektur
4.1.1 Batch-Layer
4.1.2 Serving-Layer
4.1.3 Speed-Layer
4.2 Datenspeicherung
4.2.1 Rohdaten werden zu Stammdaten
4.2.2 Stammdaten speichern
4.2.3 Datenverteilung
4.3 Big-Data-Analysen
4.3.1 MapReduce Algorithmus
4.3.2 Korrelation und Kausalität
4.3.3 Marktforschung
4.3.4 Verkehrssteuerung
4.3.5 Big Data in der Medizin
4.4 Rechtliche Grundlagen
4.4.1 Privatsphäre
4.4.2 Zweckbindung der Daten
4.4.3 Datensparsamkeit
4.4.4 Social Media Analysen
5 Kernbausteine von Big-Data-Anwendungen
5.1 Technische Notwendigkeiten
5.1.1 Skalierbare Datenverarbeitung
5.1.2 Redundante Datenhaltung
5.1.3 Daten sind unveränderlich
5.1.4 Parallelisierung der Operation
5.1.5 Optimierung der Datenstrukturen
5.2 Konzeptionelle Notwendigkeiten
5.2.1 Datenqualität
5.2.2 Zusammenhänge richtig deuten
5.2.3 Privacy by Design
6 Zusammenfassung und Ausblick
6.1 Zusammenfassung
6.2 Ausblick
Literatur
Abkürzungsverzeichnis
API Application Programming Interface BDSG Bundesdatenschutzgesetz BGB Bürgerliches Gesetzbuch B2C Business-to-Consumer CPU Central Processing Unit
CT Computertomographie
DFS Data Filesystem
DSGVO Datenschutz-Grundverordnung ETL Extract, Transform, Load GPS Global Positioning System
HDD Hard Disk Drive
HDFS Hadoop Distributed File System I/O Input/Output-Durchsatz
IT Informationstechnik MS Massenspektrometrie NoSQL Not only SQL RAM Random Access Memory SPOF Single Point of Failure SSD Solid State Disk SQL Structured Query Language IoT Internet of Things XML Extensible Markup Language
Formelverzeichnis
1 Abfrage aus der gesamten Datenmenge
2 Erstellung vom Batch-View
3 Abfrage aus dem Batch-View
4 Erstellung der Echtzeit-View
5 Abfrage aus alle Daten in Echtzeit
1 Die Bedeutung von Big Data
1.1 Motivation und Ziel der Arbeit
“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.” (GARTNER 2013)
Trotz zahlreicher Definitionsversuche ist der Begriff Big Data noch nicht klar umschrieben und galt lange als Modeerscheinung. Möglicherweise ist das Thema Big Data gerade deshalb so populär wie nie zuvor. Der technische Fortschritt hat zur Folge, dass immer kleinere und immer leistungsfähigere Computerchips in immer mehr Lebensbereiche vordringen, dort Steuerungsaufgaben übernehmen und dabei digitale Daten erzeugen.1 Die großen Datenmengen, die täglich durch das Internet, Fernsehen, Haushaltsgeräte aller Art, die Haushaltsinfrastruktur (Strom-, Gas- und Wasserversorgung), aber auch durch mobile Geräte produziert werden, befeuern die Popularität. Wurden in den letzten zehn Jahren Datenvolumina in Giga- oder Terabytes beschrieben, so werden die Datenmengen heute in Peta-, Exa- und Zettabytes gemessen.2 Dieses Datenwachstum ist so groß, dass es zunehmend nicht mehr von Menschen wahrgenommen oder verarbeitet werden kann. Zur Veranschaulichung entstanden im Jahr 2020 allein 47 Zettabyte an Daten.3 Diese 47 Zettabyte entsprechen 47 000 000 000 000 Gigabyte und veranschaulichen die Ausmaße von Big Data. Gerne werden solche Datenmengen gesammelt und gespeichert ohne konkrete Zielsetzung oder Notwendigkeit. Zunehmend wird vergessen, dass Daten ohne einen konkreten Bezug zu einem Kontext wertlos sind. Erst die zielgerichtete Nutzung macht aus Daten eine Information, die einen Nutzen oder Mehrwert generieren kann.
Im Laufe der Zeit hat sich Big Data zu mehr als nur einem Thema in der Informationstechnik (IT) entwickelt. Das Sammeln, Speichern und Verarbeiten digitaler Information ist zum Alltag geworden und viele wichtige Dienstleistungen sind zunehmend davon abhängig.4 Jeder hat Berührungspunkte mit Big Data, ob bewusst oder unbewusst. Das macht die Auseinandersetzung mit Big Data unausweichlich, sowohl für den öffentlichen Sektor, Unternehmen oder Privatpersonen. Eindeutig ist, dass Big Data nicht nur große wirtschaftliche Potenziale mit sich bringt, sondern auch dabei helfen kann, gesellschaftliche Probleme zu lösen.5 In der Medizin können neue Therapien gefunden und Krankheiten frühzeitig erkannt werden. Die Verkehrslage kann analysiert werden, um Staus zu vermeiden oder zu reduzieren. Personalisierte Kaufempfehlungen können zielgerichteter auf die Bedürfnisse von Kunden eingehen. Ohne Daten von einzelnen Individuen ist aber eine Umsetzung solcher Berechnungen nicht möglich. Es müssen Daten aus sehr persönlichen Lebensbereichen jedes Einzelnen zur Verfügung stehen. Hier muss zugleich ein Schutz der Daten berücksichtigt werden und Regelungen für den Umgang, sowie die Verarbeitung der Daten vorliegen. Wenn diese rechtlichen Aspekte nicht berücksichtigt werden, kann es schnell zu Misstrauen oder Befürchtungen, sowie im schlimmsten Fall zu Datenmissbrauch kommen.
Verallgemeinert bedeutet Big Data nichts anderes als die Möglichkeit, unbegrenzt Informationen aller Art zu speichern und für ewige Zeiten zu konservieren.6 Die Datenspeicherung alleine reicht nicht aus, um komplexe Probleme zu lösen und einen Mehrwert zu generieren. Die notwendigen Werkzeuge/Anwendungen müssen vorhanden sein, um aus großen Datenmengen die jeweils gewünschte Information auszulesen. Die Entwicklung und der Einsatz von Big-Data-Anwendungen nimmt somit eine zentrale Rolle beim Thema Big Data ein und wird neben den notwendigen Daten zum Hauptantrieb der Entwicklung. Es ist absehbar, dass Big Data in Zukunft immer wichtiger für die Gesellschaft und Unternehmen sein wird. Dementsprechend wird deutlich, dass Big-Data-Anwendungen gebraucht werden, um gesellschaftliche wie auch wissenschaftliche Fortschritte voranzutreiben.
Angesichts der Notwendigkeit von Big-Data-Anwendungen, ist es entscheidend welche Eigenschaften eine gute Big-Data-Anwendung ausmacht und was bei der Entwicklung beachtet werden soll. Das Ziel ist es, die Grundbausteine von Big-Data-Anwendungen zu erarbeiten und darzustellen. Die Forschungsfrage “Welche Aspekte bzw. Bausteine für eine Big-Data-Anwendung sind notwendig oder vorhanden?” soll berücksichtigt und beantwortet werden können. Zur Beantwortung der Forschungsfrage werden die folgenden Hypothesen gebildet:
H1: Big-Data-Anwendungen müssen schnell und skalierbar sein.
H2: Big-Data-Anwendungen müssen rechtskonform und erweiterbar sein.
Einzelne Aspekte aus dem technischen sowie dem konzeptionellen Umfeld sind zu betrachten und mögliche Wechselwirkungen der zwei Themenfelder aufzuzeigen. Letztlich sollen konkrete Vorgaben für die Entwicklung von Big-Data-Anwendungen vorliegen. Dafür werden die aufgeführten Hypothesen geprüft und anschließend belegt oder widerlegt.
1.2 Methodischer Aufbau der Arbeit
Um die Zielsetzung zu behandeln und die Hypothesen zu prüfen, wird eine Kombination aus Recherche und Entwurf angewandt. Bei der Recherche handelt es sich im Wesentlichen um eine Literaturrecherche, wobei auch einzelne Internetquellen berücksichtigt werden. Beim Entwurf hingegen liegt ein konstruktiver Ansatz vor, der methodisch die morphologische Analyse verwendet. Hierzu werden nach dem morphologischen Schema heuristisch die Auslöser bzw. die Verursacher von Big Data erarbeitet.
Als Ausgangspunkt wird im zweiten Kapitel der Aspekt der Datenerzeugung und Datenhaltung behandelt. Zu Beginn soll geklärt werden, was Daten und Informationen im Allgemeinen sind und wie Speichermedien und Datenbanksysteme zurzeit diese Daten und Informationen sichern. Außerdem werden aktuelle technologische Fortschritte in diesem Bereich erläutert. Nun können Anforderungen an Big-Data-Anwendungen hergeleitet werden, die durch die in der Literatur häufig aufgegriffenen 5 V's entstehen. Die 5 V's dienen der typischen Charakterisierung von Big Data.
In Kapitel drei werden die 5 V's erläutert. Anschließend ergeben sich aus den 5 V's konkretere Eigenschaften an Big-Data-Anwendungen, die dargestellt und hervorgehoben werden. Zudem werden weitere Eigenschaften aus den Gegebenheiten von Big Data abgeleitet und ebenfalls im dritten Kapitel aufgezeigt. Damit liegen notwendige Eigenschaften von Big-Data-Anwendungen vor, die im Weiteren überprüft und klassifiziert werden.
Um nun Vorgaben für die Entwicklung von Big-Data-Anwendungen aufzuzeigen, wird im Folgekapitel die Umsetzung von Big-Data-Anwendungen skizziert. Hierzu wird zu Beginn eine theoretisch allgemeingültige Software-Architektur beschrieben. Anhand dieser Architektur kann darauf aufbauend die konkrete notwendige Datenspeicherung erarbeitet werden. Liegt nun eine theoretisch gegebenen Grundarchitektur und ein Konzept zur Datenspeicherung vor, kann anschließend auf Big-Data-Analysen eingegangen werden. In dem darauffolgenden Abschnitt Big-Data-Analyse wird ebenfalls nach dem morphologischen Schema vorgegangen und aufbauend auf den zuvor erschlossenen Erkenntnissen neue Aspekte erarbeitet. In diesem Abschnitt werden zudem Anwendungsbeispiele aus unterschiedlichen Anwendungsgebieten zur Veranschaulichung herangezogen, die daraufhin die Überlegung der rechtlichen Aspekte anstoßen. Die rechtlichen Grundlagen beziehen sich auf verschiedene Gesetzgebungen. Hierbei wird ein Überblick der wichtigsten Gesetze für Deutschland gegeben.
Im fünften Kapitel werden die zuvor erlangten Erkenntnisse revidiert. Das fünfte Kapitel beinhaltet die Kernbausteine von Big-Data-Anwendungen und beantwortet die Forschungsfrage hinsichtlich technischer wie auch analytischer Notwendigkeiten jeder An- wendung. Hierzu werden die in den vorigen Kapiteln erarbeiteten Aspekte aufgegriffen und in Zusammenhang gesetzt. Die Hypothesen können ebenfalls anhand der Erkenntnisse in diesem Kapitel belegt oder widerlegt werden.
Abschließend gibt die Zusammenfassung im sechsten Kapitel alle wichtigen Aspekte wieder und der Ausblick lässt erahnen, wie die Entwicklung von Big-Data-Anwendungen in Zukunft voranschreiten kann.
2 Aspekte der Datenerzeugung und Datenhaltung
2.1 Daten und Informationen
Neben der Tatsache, dass Daten ein Teil des Namens vom Phänomen Big Data sind, sind sie zudem notwendig, da ein wesentlicher Fokus der Bemühungen in der Erfassung, Verarbeitung und Strukturierung von Daten liegt.7 Deshalb kommt Big Data nicht ohne Daten aus und Daten wiederum kommen nicht ohne die Datenspeicherung aus.
Als Daten werden in der informationstheoretischen Literatur Zeichen oder Symbole für Mitteilungen verstanden, die formalisierbar und beliebig reproduzierbar sind.8 Dabei können Daten sehr vielfältig sein und aus unterschiedlichsten Quellen stammen. Daten entstehen überall und permanent. Allein der menschliche Körper liefert pausenlos Daten, wie Körpertemperatur, Blutdruck, Atemfrequenz, Herzschlag und viel mehr. Zu beachten ist, dass Daten nicht die Realität sind, sondern nur ein Abbild dieser.9 Daten geben also nur einen messbaren Abschnitt der realen Welt wieder. Wenn im Kontext von Big Data von Daten gesprochen wird, sind oft die Daten gemeint, die gemessen oder erfasst werden, also die realen Fakten als theoretisch mögliche Datenmenge.10 Generalisiert können Daten also als gespeicherte Fakten definiert werden.
Nun bringen die gespeicherten Daten noch keine neuen Erkenntnisse oder generieren einen Mehrwert. Erst die Verbindung und Deutung von Daten erzeugt ein Muster und lässt aus Daten eine Information werden. Informationen wiederum erzeugen Wissen. Die erzeugten Muster sind nicht selbsterklärend, sondern bedürfen der Interpretation, um eine neue Erkenntnis zu erlangen.11 Daten muss also eine Bedeutung (Semantik) zugeordnet werden, um Informationen zu erhalten. Informationen sind somit Bedeutungskomplexe und Daten können als deren kleinste informationelle Einheit aufgefasst werden.12 Manche Informationen lassen sich erst aus anderen ableiten und diese wiederum nur aus bestimmten Daten. Somit sind nicht alle Daten gleichwertig zu betrachten. Grundsätzlich lässt sich zwischen zwei Arten von Daten unterscheiden: strukturierte und unstrukturierte Daten.
2.1.1 Strukturierte Daten
Ein wichtiger Gesichtspunkt bei der Verarbeitung von Daten ist die Art der vorliegenden Daten. Es wird zwischen strukturierten oder unstrukturierten Daten unterschieden. Strukturierte Daten sind aus technischer Sicht in der Regel Daten, die in Tabellen liegen und einen eindeutigen Schlüssel (Primary Key) besitzen. Mithilfe des Primary Keys kann eine bestimmte Information exakt identifiziert werden und muss nur einmal im Gesamtsystem gespeichert werden.13 Ein Beispiel für strukturierte Daten sind Städtenamen, die in einer Datenbank redundanzfrei in einer eigenen Tabelle gehalten werden und immer wieder anhand des Primary Keys referenziert werden können. Dadurch liegen keine Dopplungen vor und der Datenbestand wird klein gehalten, wodurch die Konsistenz der Datenbank sichergestellt wird. Generell können strukturierte Daten tabellarisch angeordnete Daten, mehrdimensionale Arrays (Matrizen), Zeitreihen mit festen oder variablen Intervallen oder Tabellen mit Daten, die durch Schlüsselspalten untereinander verbunden sind, sein.14
2.1.2 Unstrukturierte Daten
Unstrukturierte Daten sind im Vergleich zu strukturierten Daten schwieriger zu definieren. Das Merkmal unstrukturiert ist dann gegeben, wenn Daten keinerlei bzw. nur rudimentären formalen Ordnungskriterien unterliegen.15 In der Medizin beispielsweise gibt es einfach strukturierte Daten, wie genetische oder klinische Daten. Der größte Teil der medizinischen Daten ist aber unstrukturiert. Das können Texte (Arztbriefe, Notizen in Patientenakten, wissenschaftliche Publikationen), Bilder (Röntgen, Computertomographie (CT)) und Videos (Ultraschall vom Herz oder anderen Organen), Audio (Lungengeräusche, Herztöne), Ergebnisse von molekularen Experimenten von Biopsie-Zellen und viel mehr sein.16 Geschätzt machen unstrukturierte Daten um die 80% aller Daten in der Medizin aus.
Bei vielen unstrukturierten Daten besteht die Möglichkeit, diese in strukturierte Daten umzuwandeln. Im Kontext von relationalen Datenbanken wird der Vorgang, unstrukturierte Daten in eine strukturierte Form zu überführen, als Normalisierung bezeichnet. Wenn im Kontext Big Data von Normalisierung die Rede ist, bezieht sich die Normalisierung auf die strukturierte Speicherung der Daten zur Minimierung der Redundanz und Förderung der Konsistenz.17 Bei Big-Data-Anwendungen kann es aber durchaus vorteilhaft sein mit unstrukturierten Daten zu arbeiten. Generell ist im Zusammenhang mit Big Data das Speichern von Rohdaten wichtig. Es lohnt sich Rohdaten zu speichern, weil nur selten vorab feststeht, welche Fragen beantwortet werden sollen.18 Durch möglichst ursprüngliche Daten maximieren sich die Möglichkeiten, neue Einsichten zu gewinnen. Dabei sind unstrukturierte Daten immer ursprünglicher als strukturierte.
Die meisten Daten, die im Zusammenhang mit Big Data stehen, sind die sogenannten teilstrukturierten oder semistrukturierten Daten. Das können unter anderem Daten aus Textverarbeitungsprogrammen, PDF-Dateien, E-Mails, Internetseiten (HTML-Dateien) oder Präsentationsdateien sein. Da es bei Big Data jedoch hauptsächlich auf die inhaltlichen Daten ankommt und diese unstrukturiert sind, werden die semistrukturierten Daten im allgemeinen Sprachgebrauch ebenfalls zu den unstrukturierten Daten gezählt.19 Echte semistrukturierte Daten liegen nur bei Extensible Markup Language (XML)-Dateien und bei Daten aus Tabellenverarbeitungsprogramen vor.
2.1.3 Datenklassen
Wie die semistrukturierten Daten zeigen, ist oft die Abgrenzung zwischen den Daten schwer zu vollziehen, was die Einordnung in Datenklassen erleichtern soll. Die Digitalisierung bringt neue Arten von Daten und damit auch von Datenklassen mit sich. Diese neuen Datenklassen sind ein wesentlicher Bestandteil von Big Data und entstehen aus allen möglichen Lebensbereichen. Die klassischen Daten, die es auch schon vor Big Data gab, sind die Transaktionsdaten. Hierbei handelt es sich meist um Daten, die aus Bestell-, Liefer- und Zahlungsvorgänge entstehen. Diese Daten sind strukturiert und lassen sich gut in traditionellen relationalen Datenbanksystemen abbilden und über multidimensionale Datenbanken umfassend analysieren.20
Anders verhält es sich mit Interaktionsdaten und Beobachtungsdaten. Hierunter fallen die Daten der Nutzerinnen und Nutzer, die eine eindeutige Identifikation der betreffenden Personen ermöglichen, sowie die Nutzungsdaten, zur Dauer der Nutzung eines Diens- tes.21 Hierbei liegen oftmals unstrukturierte oder semistrukturierte Daten vor. Diese entstehen erst durch die Verfügbarkeit und massenhafte Nutzung von Endgeräten, die über das Internet global vernetzt sind und den exponentiell Ansteigt von Datenmengen ver- antworten.22 Durch die Nutzung vom Internet of Things (IoT) fallen zudem Verhaltensund Kontextdaten an, wie Beschleunigungs- oder Bewegungsdaten, die es ermöglichen, den Kalorienverbrauch von Sporttreibenden oder das Fahrverhalten von Autofahrenden zu ermitteln.23
Zuletzt gibt es noch die Metadaten, die bei jeder Anwendung entstehen. Diese Metadaten liefern genau genommen Daten über Daten, indem sie die primären Daten durch zusätzliche, strukturierte Informationen anreichern.
2.2 Speichermedien und Datenhaltungssysteme
Um nun aus den unterschiedlichen Daten Informationen zu gewinnen, müssen die Daten erst gespeichert werden. Dadurch entstehen große Datenmengen, da zum einen beim Speichern der Daten kaum jemand wählerisch ist und zum anderen die neuen Datenklassen zusätzliche Daten erzeugen. Außerdem müssen Änderungen an den bereits gespeicherten Daten erfasst werden, wobei die vorherige Version der Daten zusätzlich erhalten bleiben soll. Nur selten gibt es Daten, die durch gesetzliche Vorschriften unter bestimmten Umständen zu löschen sind, weshalb die meisten Daten prinzipiell auf unbestimmte Zeit aufbewahrt werden können. Das Ergebnis ist eine exponentiell wachsende Datensammlung, die physikalisch wie auch logisch gesichert werden muss. Auf technischer Ebene stellen große Datenmengen neue Herausforderungen an Datenbanksysteme und Speichermethoden dar.24
2.2.1 Speicherkapazität
Eine notwendige Voraussetzung für die Speicherung von Daten ist die Definition eines Klassifizierungsschemas, mit dem Daten charakterisiert und geordnet werden, so dass nach der Ablage wieder gezielt auf sie zugegriffen werden kann.25 Generell übernehmen Datenhaltungssysteme die Aufgabe des Speicherns von Daten, verknüpfen diese miteinander und geben diese als Information wieder. Hierzu wird vor allem Speicherplatz benötigt. Die Speicherkapazität serienmäßiger Speichersysteme ist schon im Petabyte-Bereich angekommen und ist theoretisch nicht der limitierende Faktor für die Datenspeicherung.26 Ebenso ist die Anschaffung wenig problematisch, da Speichermedien in großen Mengen und zu annehmbaren Preisen vorhanden sind. Im Allgemeinen sinken die Preise auf physikalische Speichermedien, dass aber jedes Terabyte an Speicherplatz laufende Kosten verursacht, wird oft nicht berücksichtigt.
Ein zunehmend wichtig werdender Aspekt der Datenspeicherung ist die Datenverarbeitungszeit. Daten werden schließlich gespeichert, um in absehbarer Zeit wieder auf sie zuzugreifen. Diese Zugriffszeiten sollen möglichst gering ausfallen. Die meisten Datenhaltungssysteme sind mittlerweile mit 64-Bit-Adressräumen ausgestattet, sodass sehr große Hauptarbeitsspeicher, Random Access Memory (RAM) genannt, adressiert werden kön- nen.27 Diese In-Memory genannte Entwicklung lässt zu, dass Daten nicht mehr zwingend weggeschrieben werden müssen, sondern im Hauptspeicher belassen werden können. Somit kann die Zugriffszeit verringert werden, da der Zugriff auf Daten auf Festplatten jederart nie so schnell sein kann wie auf Daten, die sich resident im Hauptspeicher eines Servers und somit näher bei den Applikationen befinden.28
Bei Servern, die herkömmliche Hard Disk Drive (HDD)-Festplatten und keine Solid State Disk (SSD)-Laufwerke verwenden, ist für das Abrufen eines Wertes eine Neupositionierung des Schreib-/Lesekopfes erforderlich.29 Dieser Suchvorgang ist eine zeitaufwendige Operation und erschwert eine Echtzeit-Analyse. Generell haben Festplatten oft durchschnittliche Datendurchsatzraten von 100 Mbit/s und ein komplettes Durchforsten von einem Terabyte auf einem einzigen Speichermedium dauert mehrere Stun- den.30 Selbst die schnellsten SSD-Laufwerke können daran nicht viel ändern. Da Big- Data-Anwendungen zunehmend auch Echtzeit-Analysen ermöglichen sollen, umgeht die In-Memory-Technologie die zeitaufwendigen Festplatten Operationen und ermöglicht somit Echtzeit-Analysen. Um die Datenverfügbarkeit zusätzlich zu erhöhen, können Hauptspeicherinhalte zwischen verschiedenen Servern gespiegelt und somit synchron gehalten werden. Dadurch verringert sich insgesamt aber die verfügbare NettoHauptspeicherkapazität. Ebenso muss bedacht werden, dass bei einem Systemabsturz die Daten im flüchtigen Hauptspeicher verloren sind. Um Datenverlust zu verhindern, müssen die Dateninhalte, die sich im Hauptspeicher befinden, zusätzlich auf ein nichtflüchtiges, persistentes Speichermedium gebracht werden.31 Somit muss die Speicherkapazität auch beim Einsatz von In-Memory-Technologien mitbedacht werden.
2.2.2 Computer Cluster
Das exponentielle Wachstum der Speicherkapazität von Plattenspeichersystemen ermöglicht zwar die Speicherung großer Datenmengen, die als Basis für analytische Fragestellungen dienen, zeitgleich vergrößern sich bei zunehmenden Datenmengen auch die erforderlichen Zeiten zur Bearbeitung dieser Fragestellungen.32 Es werden schnellere Zugriffszeiten benötigt, die zum einem durch schnellere Server und zum anderen durch das Zusammenschalten mehrerer Server realisiert werden.
Die schnelle Hardwareentwicklung der vergangenen Jahre in Richtung MulticoreTechnologie bietet eine grundlegend veränderte technologische Basis. Heutige Standardserver haben nicht mehr eine Central Processing Unit (CPU), sondern vier mit je zehn Rechenkernen und arbeiten mit einem Takt von 40 Rechenkernen. Zum Vergleich wäre vor drei bis fünf Jahren ein Server mit vergleichbarer Performance noch ein immens großer Rechner gewesen, der ungefähr eine Million Euro gekostet hat.33 Selbst Server Versionen mit acht CPUs und somit 80 Rechenkernen sind heutzutage keine Seltenheit mehr. Werden nun Cluster aus den Servern erstellt können bis zu 800 Rechenkerne für eine Berechnungen zur Verfügung stehen. Diese Verteilung der Verarbeitung auf mehrere Rechner wird horizontale Skalierung (Scale-Out) genannt. Dabei holen die Rechner sich die Daten vom Speichersystem ab und legen die Ergebnisse in der Regel auch wieder dort ab.34
Zusätzlich wird bei der Erstellung eines Clusters zwischen virtuellen und physikalischen Servern unterschieden. So sind virtuelle Server beispielsweise einfacher und schneller bereitzustellen als reale Server, gerade wenn sich neue Lastanforderungen dynamisch und spontan ergeben.35 Die Verwaltung virtueller Server hingegen schmälert die Performance, was bei physikalischen Servern nicht der Fall ist. Beide Arten von Servern haben Vor- und Nachteile und müssen situationsabhängig in Betracht gezogen werden. Zudem werden moderne Cluster ohne zentrale Komponenten ausgelegt, damit kein Single Point of Failure (SPOF), also ein einzelner Ausfallpunkt, entsteht.36
2.2.3 Datenbanksysteme
Liegt ausreichend Speicherkapazität vor und Computer Cluster stellen die notwendige Rechenleistung bereit, werden Datenhaltungssysteme benötigt, um die Daten abzuspeichern und anschließend zu verarbeiten. Zur dauerhaften und fehlerfreien Speicherung von Daten existiert für nahezu alle Anwendungen eine Form der Datenverwaltung.37 Die gängigen Datenhaltungssysteme wie relationale Datenbanken sind schnell am Limit der Datenverarbeitung angekommen und brechen unter der Last von Big Data zusammen.
Der herkömmliche Ansatz von Datenhaltung ist, dass lesend und schreibend auf eine Datenbank zugegriffen wird und dass die Datenbank inkrementell aktualisiert wird, sobald neue Daten ergänzt werden.38 Relationale Datenbanksysteme organisieren die Datenbestände in Tabellen (Relationen). Sie verwenden als Abfrage- und Manipulationssprache die international standardisierte Sprache Structured Query Language (SQL), weshalb sie oft SQL-Datenbanksysteme genannt werden.39 Zur Vermeidung von Redundanzen wird der Datenbestand als Verknüpfung mehrerer Tabellen dargestellt (Normalform).40 Der zugehörige Datenindex von gespeicherten Daten wird beim Hinzufügen und Ändern von Datensätzen ständig modifiziert und belegt auch bei nicht Verwendung Speicherplatz. Diesen Speicherplatz sofort freizugeben, sobald er nicht mehr verwendet wird, wäre zu zeitraubend. Daher wird hin und wieder eine sogenannte Komprimierung der Datenbank durchgeführt, bei der die belegten Speicherbereiche zeitgleich freigegeben werden.41 Dieser Komprimierungsprozess ist aufwendig und eine beträchtliche Arbeitslast für die CPU und Festplatten. Durch die Komprimierung kann die Geschwindigkeit des Servers in dem Moment stark sinken und bis zum Totalausfall führen. Durch Server-Cluster und korrekte Handhabung, wie Planung der Komprimierungsprozesse einer Datenbank kann ein Ausfall verhindert werden. Zwar sinken die Anschaffungskosten für Speichermedien, trotzdem ist jede unnötige Belegung von Speicherplatz ein vermeidbarer Kostenfaktor. Rational betrachtet hebt dieses Vorgehen die Kosten und den Aufwand, bis irgendwann die Wirtschaftlichkeit verloren geht. Zudem liegen relationalen Datenbanken starre Schemata zu Grunde, deren Änderung meist mit erheblichen Reorganisationsauswänden der Daten verbunden ist.42
Aus diesen Gründen werden für Big Data neue Datenbankarchitekturen benötigt. Diese müssen sich von den alten Konventionen lösen und auf neuen Technologien aufbauen. Die bereits erwähnte In-Memory-Technologie, die nach den oben beschriebenen Prinzipien arbeiten, zeigen, dass der Zugriff auf Daten massiv beschleunigt werden kann.43 Zudem kann extrem schnell durch alle Daten gesucht werden, wenn die passende Form der Datenbankarchitektur gewählt wird. Abfragen gegen den Hauptspeicher kommen auf Auslesezeiten im Bereich von Nanosekunden. Im Vergleich kommen herkömmlichen festplattenbasierten Datenbanken auf Abfragewerte im Millisekunden Bereich. Dabei ist die In- Memory-Technologie nicht der einzige Lösungsansatz für den Umgang mit dem großen Datenaufkommen.
Um mit den durch Big Data einhergehenden Herausforderungen zurechtzukommen, wurden verschiedene neue Technologien entwickelt, die unter dem Begriff Not only SQL (NoSQL) zusammengefasst werden.44 NoSQL steht dabei nicht für kein SQL sondern für nicht nur SQL. Die Nachteile von herkömmlichen SQL-Datenbanken von Zeit, Rechenaufwand, Informationsverlust und Mehrkosten tragen dazu bei, dass sich eine NoSQL- Bewegung formiert, die das Speichern und das performante Verarbeiten von großen, unstrukturierten Datenmengen ermöglichen sollte.45 NoSQL-Datenbanken sind zum einen komplexer aufgebaut als herkömmliche Datenbanken, zum anderen aber zeitgleich simpler gestaltet. Zudem unterstützen sie diverse Datenmodelle und Indextypen und können genauer an die jeweiligen Anforderungen angepasst werden.46 So können sie recht einfach beliebig neue Datentypen aufnehmen, da sie auf keinem festen Schema aufgebaut sind.47 Zu den kommerziellen NoSQL-Datenbankprodukten kommen im Zeitalter von Big Data immer mehr Open Source-Produkte hinzu, die sich in unterschiedliche Kategorien untergliedern und je nach Problemstellung konzipiert und optimiert wurden.48
3 Anforderungen an Big-Data-Anwendungen
3.1 Die 5 V's
Zwei Bedingungen, die maßgeblich zur Profilierung von Big Data beigetragen haben, sind der gesunkene Preis für Datenspeicherplatz sowie leistungsfähigere Computersysteme.49 Diese neuen technischen Fortschritte ermöglichen schnelleres Speichern und Verarbeiten von Daten. Damit entstehen zeitgleich neue Anforderungen und Herausforderungen, die sowohl technisch als auch fachlich umgesetzt werden müssen. Big Data wird gerne über die Datenmenge, deren Vielfalt und ihren Wert charakterisiert. Häufig wird in diesem Kontext noch die Qualität der Daten mit aufgelistet, da immer öfter Daten in Rohform mit geringer Qualität zur Verfügung stehen.50 Diese Charakteristiken lassen sich anhand der sogenannten 5 V's zusammenfassen.
Die 5 V's umfassen Volume, Veracity/Validity, Variety, Velocity und Value. Oft wird in diesem Zusammenhang von den 6 V's gesprochen, da Veracity und Validity nicht immer als ein Punkt aufgefasst werden. Umstritten ist ebenfalls, ob alle fünf Eigenschaften vorhanden sein müssen, um von Big Data zu reden. Überwiegende Einigkeit besteht darin, dass Big Data eine Kombination der drei Elemente Volume, Variety, Velocity ist.51 Danach zeichnet sich Big Data nicht allein durch das immense Datenvolumen (Volume) aus, sondern ebenso durch die erhebliche Vielfalt an Datenformaten (Variety) sowie durch die Geschwindigkeit (Velocity), mit der neue Daten entstehen sowie verfügbar und damit analysierbar sind.52 Je nach Auffassung wird aber auch von den 4 V's (Volumen, Variety, Velocity, Veracity) gesprochen. Grund für die Unstimmigkeiten ist die fehlende Definition von Big Data. Eindeutig ist aber, dass Big Data immer eine Kombination aus mehreren typischen Aspekten aufweist.
3.1.1 Volume
Der erste und eindeutigste Aspekt von Big Data ist das Volumen. Mit Volumen ist das Datenvolumen bzw. die Datenmenge gemeint. Durch den technischen Fortschritt schreitet der Datenwachstum weitaus schneller voran, als die Weiterentwicklung der Datenzugriffsrate. Zeitgleich müssen die entstandenen Datenmengen in möglichst kurzer Zeit durchforstet werden.53 Der schnelle Datenwachstum entsteht unter anderem dadurch, dass bei Big Data häufig nicht erst nach einer konkreten Information in der Datenmenge gesucht wird und danach nur diese eine konkrete Information abgespeichert wird. Es wird zuerst die ganze Datenmenge gespeichert und anschließend nach der gewünschten Information gesucht. Dadurch entstehen (unnötig) große Datenmengen. Durch solches Vorgehen ist der Datenbestand meist sehr umfangreich und liegt im Tera- bis Zettabytebe- reich.54 Diese Datenmengen sind der Namensgeber für Big Data, zugleich aber auch eine der größten technischen Herausforderungen. So gibt es Datenmengen, die aufgrund der fachlichen Gegebenheiten zu groß sind, um sie mit den bisherigen Mitteln zu verarbei- ten.55
3.1.2 Veracity
Die Veracity oder auch Validity genannt, beschreibt die Richtigkeit bzw. Wahrhaftigkeit der Daten. Diese zwei sehr ähnlichen Aspekte sind entscheidend für Big-Data- Anwendungen und können einzeln betrachtet werden. Da ihre Wechselwirkung und der Zusammenhang sehr groß ist, sollten diese zwei Eigenschaften aber als ein Punkt geführt werden. Trotzdem werden sie oft nicht eindeutig als ein Big Data Kennzeichen wahrgenommen und wurden anfangs überhaupt nicht berücksichtigt. Veracity sollte aber immer im Zusammenhang mit Daten berücksichtigt werden, da nur valide Daten ein korrektes Ergebnis liefern können. Datenqualität wird zunehmend wichtiger, gerade bei der großen Menge an unterschiedlichen Daten.
Die Vielfalt der Datenquellen, -formate, -strukturen und -klassen, die bei Big Data auftreten, werden noch durch Variety beschrieben. Deren Notwendigkeit zur Integration in Auswertungslogiken und -systeme, die eine übergreifende Transformation aller Informationen ermöglicht, bedeutet erhöhte Anforderungen an Maßnahmen zur Schaffung und Aufrechterhaltung einer hohen Datenqualität.56 Die Sicherstellung der Validität der Daten ist somit gefordert. Es ist kennzeichnend für Big-Data-Anwendungen, auch solche Daten einzubeziehen, deren objektiver Erkenntniswert nicht sicher messbar ist.57 Oftmals ergibt sich der Erkenntniswert auch erst im Laufe der Analyse und wird durch die Kombination unterschiedlicher Daten generiert. Da viele Daten vage oder ungenau sind, müssen spezifische Algorithmen zur Bewertung der Aussagekraft und zur Qualitätseinschätzung der Resultate verwendet werden.58 Selbst umfangreiche Datenbestände sind keine Garantie für eine bessere Auswertungsqualität, wenn dort invalide Daten vorhanden sind. Trotz fortschrittlichster Analysemethoden lässt sich oftmals ein gewisses Maß an Ungenauigkeiten nicht vermeiden.59
3.1.3 Variety
Big Data zeichnet sich eindeutig durch große Datenmengen aus. Ebenso von Bedeutung ist, aus welchen Daten die Datenmengen bestehen. Das denkbare Spektrum, aus dem Daten kommen, reicht von technischen Messdaten über Social Media-Inhalte bis hin zu Video-Streams.60 Diese Daten müssen in IT-Systeme und Verarbeitungsprozesse integriert werden, die nicht den klassischen Strukturen relationaler oder multidimensionaler Datenbanksysteme entsprechen, in denen die Daten auf Basis fest definierter Ordnungskriterien miteinander in Beziehung gesetzt werden können.61 Mit der Vielfältigkeit von Daten ist zum einen die Vielfalt von Formaten gemeint, zum anderen die Anzahl der Datenquellen.62 Variety fasst diese Vielfalt an Datenstrukturen, -formaten, -klassen und -quellen zusammen.
Die Verarbeitung von strukturierten, semistrukturierten und unstrukturierten Daten ist komplex. Gerade weil viele der für Big Data relevanten Daten unstrukturiert sind und somit nicht in ein vordefiniertes Datenmodell passen.63 Zeitgleich liegen Daten in verschiedenen Formaten vor und müssen einheitlich formatiert werden. Insbesondere die Integration unstrukturierter Daten in Prozesse und Architekturen, die ursprünglich auf die Verarbeitung strukturierter Daten ausgelegt sind, erzeugt einen Komplexitätszuwachs. Um Daten aus unterschiedlichen Quellen zu verwenden, müssen diese aus dem jeweiligen System überführt werden. Dazu wird für jedes integrierte System ein eigener Datentransformationsprozess (Extract, Transform, Load (ETL)-Logik) benötigt. Variety beschreibt somit die Notwendigkeit, eine Vielzahl unterschiedlicher Datenquellen, die alle mit einer Anwendung kompatibel sein müssen, zu integrieren.
3.1.4 Velocity
Das Merkmal Velocity unterliegt ebenfalls verschiedenen Interpretationen. Der Begriff Velocity bedeutet Geschwindigkeit und kann verlangen, dass im Extremfall Datenströme in Echtzeit ausgewertet und analysiert werden können.64 Die Geschwindigkeit kann sich auf die Veränderungen oder auf die Verarbeitung von Daten auswirken. Mit Velocity ist somit zum einen die Veränderungsdynamik und zum anderen die Verarbeitungsdynamik gemeint.
Wenn von Veränderungsdynamik die Rede ist, geht es um die Geschwindigkeit, mit der sich Daten und Beziehungen zwischen diesen Daten sowie deren Bedeutung verän- dern.65 Besonders bei Echtzeit-Analysen, aber auch im Allgemeinen verändern Daten sich schnell und beeinflussen somit die Resultate von Analysen. Damit steht das Merkmal Velocity auch für die kurze Halbwertzeit des Erkenntniswertes von Daten.66 In Bezug auf Big Data sind somit viele Informationen hochdynamisch, da sie sich in einer bestimmten Zeiteinheit sehr oft ändern.67 Diese dynamische Änderung wird zeitliche Veränderungsdynamik genannt. Die semantische Veränderungsdynamik hingegen beschreibt die Veränderung der inhaltlichen Bedeutung von Daten.
Die Verarbeitungsdynamik beschreibt die Geschwindigkeit, in der Daten verarbeitet werden können.68 Durch die bereits beschriebene dynamische Veränderung von Daten muss deren Verarbeitung ebenfalls schnell erfolgen. Dabei beeinflusst der technische Fortschritt die Verarbeitungsdynamik maßgeblich und ermöglicht immer schnellere Berechnungen. Aber auch andere technische Optimierungen können die Verarbeitungsdynamik erhöhen. Der konkrete Anwendungsfall ist ausschlaggebend für den Optimierungsansatz. Bei vielen kleinen Daten, die über Datenströme (Streams) abgegriffen werden und idealerweise in Echtzeit verarbeitet werden sollen, wird beispielsweise kein Geschwindigkeitsgewinn durch die verteilte Ablage und den Zugriff über das Netzwerk erzielt.69 Bei anderen Anwendungsfällen hingegen kann genau dieses Vorgehen die Verarbeitungsdauer erheblich minimieren.
[...]
1 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 7.
2 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 10.
3 Vgl. Andree, M.,Atlas der digitalen Welt, 2020, S. 12.
4 Vgl. D'Onofrio, S.,Big Data Analytics, 2021, S. 5.
5 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 3.
6 Vgl. Schröder, M.,Big Data, 2017, S. 10.
7 Vgl. Davenport, T.,bigdata @ work, 2014,S. 135.
8 Vgl. Hoffmann-Riem, W.,Big Data, 2018, S. 16.
9 Vgl. Brücher, C.,Rethink Big Data, 2013, S. 23.
10 Vgl. Brücher, C.,Rethink Big Data, 2013, S. 24.
11 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 12.
12 Vgl. Wiegerling, K.,Datafizierung und Big Data, 2020, S. 196.
13 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 165.
14 Vgl. McKinney, W.,Datenanalyse mit Python, 2019, S. 1.
15 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 309.
16 Vgl. Aigner, M.,Alles Mathematik, 2016, S. 49.
17 Vgl. Marz, N.,Big Data, 2016, S. 59.
18 Vgl. Marz, N.,BigData, 2016, S. 50.
19 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 310.
20 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 168.
21 Vgl. Kolany-Raiser, B.,Big Data und Gesellschaft, 2018, S. 90.
22 Vgl. Bachmann, Ä.,Big Data - Fluch oder Segen?, 2014, S. 168.
23 Vgl. Kolany-Raiser, B.,Big Data und Gesellschaft, 2018, S. 91.
24 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 168.
25 Vgl. Bodendorf, F.,Daten- und Wissensmanagement, 2006, S. 3.
26 Vgl. Brücher, C.,Rethink Big Data, 2013, S. 55.
27 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 197.
28 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 294.
29 Vgl. Marz, N.,Big Data, 2016, S. 218.
30 Vgl. Freiknecht, J., Big Data in der Praxis, 2018, S. 11.
31 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 294.
32 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 278.
33 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 196.
34 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 278.
35 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 288.
36 Vgl. Wolff, D.,Digitalisierung, 2018, S. 76.
37 Vgl. Wolff, D.,Digitalisierung, 2018, S. 79.
38 Vgl. Marz, N.,Big Data, 2016, S. 27.
39 Vgl. D'Onofrio, S.,Big Data Analytics, 2021, S. 6.
40 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 288.
41 Vgl. Marz, N.,Big Data, 2016, S. 27.
42 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 289.
43 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 198.
44 Vgl. Marz, N.,Big Data, 2016, S. 17.
45 Vgl. Freiknecht, J., Big Data in der Praxis, 2018, S. 195.
46 Vgl. Marz, N.,Big Data, 2016, S. 248.
47 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 289.
48 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 290.
49 Vgl. Spranger , J.,Big Data in der Gesundheitsförderung und Prävention, 2021, S. 1.
50 Vgl. Haring, R.,Gesundheit digital, 2019, S. 17.
51 Vgl. Kolany-Raiser, B.,Big Data und Gesellschaft, 2018, S. 237.
52 Vgl. D'Onofrio, S.,Big Data Analytics, 2021, S. 26.
53 Vgl. Freiknecht, J., Big Data in der Praxis, 2018, S. 11.
54 Vgl. D'Onofrio, S.,Big Data Analytics, 2021, S. 6.
55 Vgl. Brücher, C.,Rethink Big Data, 2013, S. 55.
56 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 16.
57 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 8.
58 Vgl. D'Onofrio, S.,Big Data Analytics, 2021, S. 6.
59 Vgl. Kolany-Raiser, B.,Big Data und Gesellschaft, 2018, S. 317.
60 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 8.
61 Vgl. Bachmann, Ä.,Big Data - Fluch oder Segen?, 2014, S. 13.
62 Vgl. Müller, S.,Big Data Analysen, 2018, S. 8.
63 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 8.
64 Vgl. D’Onofrio, S.,Big Data Analytics, 2021, S. 6.
65 Vgl. Bachmann, Ä.,Big Data - Fluch oder Segen?, 2014, S. 11.
66 Vgl. Dorschel, J.,Praxishandbuch Big Data, 2015, S. 7.
67 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 11.
68 Vgl. Bachmann, R.,Big Data - Fluch oder Segen?, 2014, S. 10.
69 Vgl. Müller, S.,Big Data Analysen, 2018, S. 7.
- Quote paper
- Andrea Wist (Author), 2021, Entwicklung von Big-Data-Anwendungen. Aspekte der Datenerzeugung und Datenhaltung, Munich, GRIN Verlag, https://www.grin.com/document/1172134
-
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X. -
Upload your own papers! Earn money and win an iPhone X.