Diese Hausarbeit aus meiner Berufsschulzeit thematisiert die Geschichte, die Einsatzbereiche und die Technik von Hadoop.

Neben der Entstehung von Hadoop wird auf aktuelle Einsatzbereiche von Hadoop eingegangen (Stand September 2012) und die Technik, also der Grundgedanken, der sich hinter Hadoop befindet näher betrachtet.

Die Entwicklung von Computersystemen war und ist stets eng mit den Datenmengen verbunden, die auf diesen gespeichert und ausgewertet werden können. Eine anhaltend steigende Speicherkapazität dieser Systeme sorgt dafür, dass einerseits mehr Daten gespeichert werden müssen und somit auch die Kosten für eben diese steigen. Andererseits entstehen so auch deutlich mehr Daten, die ausgewertet werden können. Gerade diese Daten bilden eine Grundlage für heutige analytische Prozesse, wie sie untere anderem in den Bereichen Marketing und Werbung benötigt werden. Dieses sogenannte Data Mining [1], bei dem aus einer riesigen Menge von Daten, die entscheidenden Daten herausgefiltert werden, stellt für die moderne Wirtschaft einen überaus wichtigen Faktor bei der täglichen Arbeit dar.
Die weltweit agierenden Unternehmen der IT-Branche Google, Amazon oder IBM sind stellvertretend als die Firmen zu nennen, die auf diesen großen Daten ihren Erfolg begründen. Im Allgemeinen werden diese großen Datenmengen, aus denen sich die wichtigen Informationen extrahieren lassen, mit dem Begriff Big Data [2] zusammengefasst.
Mit wachsender Größe von eben dieser Big Data wird es umso aufwendiger und ebenso kostspieliger diese Daten einerseits bereit zu stellen, aber was noch viel wichtiger ist, diese Daten zu durchsuchen. Mit immer größeren Datenmengen steigen auch die Laufzeiten für Programme, die eben diese Daten nach den gesuchten Informationen durchsuchen.
Inspiriert von diesem Zustand hat Doug Cutting seine Idee umgesetzt, statt einem leistungsstarken Rechner, mehrere günstigere Computer zu einem Verbund zusammenzuschließen und somit die Kosten für das Data Mining drastisch zu reduzieren.
Die ersten Schritte von Hadoop waren getan und sollten somit den Grundstein für ein überaus erfolgreiches und vor allem zukunftsrelevantes OpenSource-Projekt bilden.
[...]

Excerpt

Inhalt

1 Einleitung

2 Geschichte

3 Technik
3.1 Google File System
3.2 Hadoop Distributed File System
3.3 MapReduce
3.4 Hadoop

4 Einsatzbereiche
4.1 Suchmaschinen
4.1.1 Yahoo
4.1.2 Google
4.2 Big Data
4.2.1 Facebook
4.2.2 eBay
4.3 Cloud-Dienste
4.3.1 Amazon
4.3.2 IBM
4.4 Hadoop und Microsoft

5 Zusammenfassung

I. Quellen

II. Abbildungen

III. Erklärung

1 Einleitung

Die Entwicklung von Computersystemen war und ist stets eng mit den Datenmengen verbunden, die auf diesen gespeichert und ausgewertet werden können. Eine anhaltend steigende Speicherkapazität dieser Systeme sorgt dafür, dass einerseits mehr Daten gespeichert werden müssen und somit auch die Kosten für eben diese steigen. Andererseits entstehen so auch deutlich mehr Daten, die ausgewertet werden können. Gerade diese Daten bilden eine Grundlage für heutige analytische Prozesse, wie sie untere anderem in den Bereichen Marketing und Werbung benötigt werden. Dieses sogenannte Data Mining ^[1], bei dem aus einer riesigen Menge von Daten, die entscheidenden Daten herausgefiltert werden, stellt für die moderne Wirtschaft einen überaus wichtigen Faktor bei der täglichen Arbeit dar

Die weltweit agierenden Unternehmen der IT-Branche Google, Amazon oder IBM sind stellvertretend als die Firmen zu nennen, die auf diesen großen Daten ihren Erfolg begründen. Im Allgemeinen werden diese großen Datenmengen, aus denen sich die wichtigen Informationen extrahieren lassen, mit dem Begriff Big Data ^[2] zusammengefasst.

Mit wachsender Größe von eben dieser Big Data wird es umso aufwendiger und ebenso kostspieliger diese Daten einerseits bereit zu stellen, aber was noch viel wichtiger ist, diese Daten zu durchsuchen. Mit immer größeren Datenmengen steigen auch die Laufzeiten für Programme, die eben diese Daten nach den gesuchten Informationen durchsuchen.

Inspiriert von diesem Zustand hat Doug Cutting seine Idee umgesetzt, statt einem leistungsstarken Rechner, mehrere günstigere Computer zu einem Verbund zusammenzuschließen und somit die Kosten für das Data Mining drastisch zu reduzieren.

Die ersten Schritte von Hadoop waren getan und sollten somit den Grundstein für ein überaus erfolgreiches und vor allem zukunftsrelevantes OpenSource-Projekt bilden.

Im heutigen Leben sind Hadoop und die aus dem Projekt entstandenen Zweige nicht mehr wegzudenken. Die größten Webseiten wären ohne die Cluster-Technologie, also eben dieses zusammenschalten von Rechenkapazitäten, nicht so erfolgreich, wie sie heute sind. Neben Facebook, Amazon oder eBay setzen auch wie bereits erwähnt Firmen mit längerer IT-Historie wie IBM oder Microsoft auf verteilte Rechenleistung basierend auf Hadoop.

2 Geschichte

Seinen Ursprung hat Hadoop im Jahr 2004, als Doug Cutting und Mike Cafarella bei dem gemeinsamen Projekt Nutch auf der Suche nach einer möglichst preiswerten Möglichkeit waren, um eine große Anzahl von Webseiten zu indizieren. Cutting und Cafarella wollten mit Nutch eine OpenSource Suchmaschine schaffen, die als Alternative zu den großen Anbietern wie Google oder Yahoo dienen sollte.

Gerade Google diente den beiden Entwicklern zu diesem Zeitpunkt als wichtiger Ideenlieferant, da vom Suchmaschinenriesen passenderweise zu diesem Zeitpunkt Unterlagen zu zwei Technologien veröffentlicht wurden, die die Grundlage für den Erfolg von Hadoop bilden sollte.

Einerseits interessierte man sich für das auf Linux basierende Google File System (GFS) ^[3], das für die eigene Suchmaschinensoftware entwickelt wurde und Daten in teilweise mehreren Gigabyte großen Dateien speichert.

Abbildung in dieser Leseprobe nicht enthalten

Den zweiten Baustein für Hadoop bildet der ebenfalls von Google entwickelte Suchalgorithmus MapReduce ^[4], der es ermöglicht, sehr große Datenmengen äußerst effizient und in verhältnismäßig geringer Zeit nach gegebenen Schlüsseln zu durchsuchen.

Bereits nach sehr kurzer Zeit wurde Yahoo auf die Arbeit von Cutting und Cafarella aufmerksam und bot dem damals frei arbeitenden Softwareentwickler Doug Cutting eine Stelle im Unternehmen an und offerierte ihm die Möglichkeit, die Software Hadoop dort weiterzuentwickeln.

Nachdem im Jahr 2006 der erste Prototyp von Hadoop als funktional eingestuft werden konnte, entschloss man sich bei Yahoo Hadoop als Basis für die eigene Suchmaschine zu etablieren. Andere Firmen betrieben bereits Implementierungen, die Googles MapReduce ähnlich waren; der große Vorteil von MapReduce war jedoch die Einfachheit und im Zusammenspiel mit dem GFS auch die Kosteneffizienz. Im Januar 2008 wurde mit Yahoo Webmap die erste auf Hadoop basierende Applikation in den Produktivbetrieb übernommen. Webmap erstellt einen Index aller bekannten Webseiten und der dazugehörigen notwendigen Metadaten, um diese zu durchsuchen.

Trotz der Tatsache, dass Cutting bei einem kommerziell ausgerichteten Unternehmen angeheuert hatte, blieb Hadoop stets OpenSource Software und so sind der Erfolg, den die Software mit sich brachte, und das weltweite Interesse, das Hadoop auf sich zog sehr einfach zu erklären.

Bereits im Frühjahr desselben Jahres veranstaltete Yahoo eine Entwicklerkonferenz in Kalifornien, zu der 350 interessierte Entwickler kamen und sich über die Möglichkeiten von Hadoop informierten und austauschten. Neben Yahoo nutzten auch schon Amazon und IBM die Möglichkeiten von Hadoop. Seit Januar 2008 ist Hadoop als Top-Level-Projekt der Apache Foundation eingestuft Im darauf folgenden Jahres 2009 erschienen zu der erneut von Yahoo veranstalteten Konferenz knapp 700 Interessierte aus aller Welt und Firmen wie Facebook oder eBay verwendeten inzwischen auf Hadoop basierende Lösungen.

Bei Microsoft, die das Startup-Unternehmen Powerset übernommen hatten und sich so mit dem Hadoop Cluster von Powerset konfrontiert sahen, entschied man sich statt der OpenSource- Lösung auf eine proprietäre Lösung zu setzen. Diese Entscheidung wurde jedoch daraufhin wieder verworfen. Hadoop wird von Microsoft im Bereich der Cloud-Computing-Plattform Azure zum Einsatz kommen und dort für die Verarbeitung von Big Data eine entscheidende Rolle spielen.

Neben den großen Firmen der IT-Branche wird Hadoop, gerade wegen seiner Einfachheit bei der Implementierung, auch für kleinere Unternehmen, die sich mit Data Mining beschäftigen sehr interessant werden. ^[5] ^[6]

3 Technik

Wie bereits im vorherigen Kapitel zu der Geschichte von Hadoop erwähnt, bilden zwei Technologien von Google die Basis für Hadoop. Neben dem Google File System (GFS), das für die Speicherung der zu durchsuchenden Daten verantwortlich ist, wird MapReduce eingesetzt, welches das Durchsuchen von großen Datenmengen deutlich effizienter gestaltet.

3.1 Google File System

Das Google File System (GFS) wurde ursprünglich für die eigene Websuche von Google entwickelt, um die durch die Suchmaschine erfassten enormen Datenmengen zu speichern.

[...]

^[1] „Data Mining,“ Wikipedia, [Online]. Available: http://de.wikipedia.org/wiki/Data-Mining. [Zugriff am 21 August 2012].

^[2] „Big Data,“ Wikipedia, [Online]. Available: http://de.wikipedia.org/wiki/Big_Data. [Zugriff am 21 August 2012].

^[3] „Google File System (GFS),“ [Online]. Available: http://de.wikipedia.org/wiki/Google_File_System.

^[4] „MapReduce,“ [Online]. Available: http://de.wikipedia.org/wiki/MapReduce. [Zugriff am 21 August 2012].

^[5] M. Bayer, „FAQ Big Data: Hadoop - der kleine Elefant für die großen Daten,“ computerwelt.at, 24 Juni 2012. [Online]. Available: http://www.computerwelt.at/news/enterprise/professionalsoftware/detail/artikel/faq-big-data-hadoop-der-kleine-elefant-fuer-die-grossen-daten/. [Zugriff am 31 August 2012].

^[6] C. Metz, „How Yahoo Spawned Hadoop, the Future of Big Data,“ 18 Oktober 2011. [Online]. Available: http://www.wired.com/wiredenterprise/2011/10/how-yahoo-spawned-hadoop/all/1. [Zugriff am 21 August 2012].

Excerpt out of 12 pages - scroll top

Details

Title: Hadoop: Technik, Einsatzbereiche, Geschichte
Grade: 99,5%
Author: Sebastian Chilcott (Author)
Publication Year: 2012
Pages: 12
Catalog Number: V212469
ISBN (eBook): 9783656430391
ISBN (Book): 9783656435594
Language: German
Tags: Hadoop IBM
Product Safety: GRIN Publishing GmbH

Quote paper: Sebastian Chilcott (Author), 2012, Hadoop: Technik, Einsatzbereiche, Geschichte, Munich, GRIN Verlag, https://www.grin.com/document/212469

Hadoop: Technik, Einsatzbereiche, Geschichte

Excerpt

Inhalt

1 Einleitung

2 Geschichte

3 Technik

3.1 Google File System

Details