Zuhause Trends Wie hadoop hilft, das Big-Data-Problem zu lösen

Wie hadoop hilft, das Big-Data-Problem zu lösen

Inhaltsverzeichnis:

Anonim

Big Data ist … na ja … groß! Wie viele Daten genau als Big Data klassifiziert werden können, ist nicht eindeutig. Lassen Sie uns in dieser Debatte also nicht ins Stocken geraten. Für ein kleines Unternehmen, das es gewohnt ist, mit Daten in Gigabyte umzugehen, wären 10 TB Daten GROSS. Für Unternehmen wie Facebook und Yahoo sind Petabytes jedoch groß.


Die Größe der Big Data macht es unmöglich (oder zumindest unerschwinglich), sie in herkömmlichen Speichern wie Datenbanken oder herkömmlichen Filern zu speichern. Wir sprechen von den Kosten für die Speicherung von Gigabyte Daten. Die Verwendung von herkömmlichen Speicherfilern kann viel Geld kosten, um Big Data zu speichern.


Hier werfen wir einen Blick auf Big Data, seine Herausforderungen und wie Hadoop sie lösen kann. Zunächst die größten Herausforderungen für Big Data.


Big Data ist unstrukturiert oder halbstrukturiert

Viele Big Data sind unstrukturiert. Klicken Sie beispielsweise auf Stream-Protokolldaten, um Folgendes anzuzeigen:


Zeitstempel, user_id, page, referrer_page


Aufgrund der fehlenden Struktur sind relationale Datenbanken nicht für die Speicherung von Big Data geeignet. Außerdem können nicht viele Datenbanken Milliarden von Datenzeilen speichern.

Es hat keinen Sinn, Big Data zu speichern, wenn wir sie nicht verarbeiten können

Das Speichern von Big Data ist Teil des Spiels. Wir müssen es verarbeiten, um daraus Intelligenz zu gewinnen. Herkömmliche Speichersysteme sind in dem Sinne ziemlich "dumm", dass sie nur Bits speichern. Sie bieten keine Rechenleistung.


Das herkömmliche Datenverarbeitungsmodell speichert Daten in einem Speichercluster, der zur Verarbeitung in einen Computercluster kopiert wird. Die Ergebnisse werden in den Speichercluster zurückgeschrieben.


Dieses Modell funktioniert jedoch nicht für Big Data, da das Kopieren so vieler Daten in einen Compute-Cluster zu zeitaufwändig oder unmöglich sein kann. Wie lautet also die Antwort?


Eine Lösung besteht darin, Big Data direkt zu verarbeiten, z. B. in einem Speichercluster, der gleichzeitig als Rechencluster fungiert.


Wie wir oben gesehen haben, trotzt Big Data der herkömmlichen Speicherung. Wie gehen wir mit Big Data um?

Wie Hadoop das Big-Data-Problem löst

Hadoop kann auf mehreren Computern ausgeführt werden

Beginnen wir mit einem Beispiel. Nehmen wir an, wir müssen viele Fotos speichern. Wir werden mit einer einzelnen Platte beginnen. Wenn wir eine einzelne Festplatte überschreiten, verwenden wir möglicherweise einige Festplatten, die auf einem Computer gestapelt sind. Wenn wir alle Festplatten auf einer einzelnen Maschine voll ausschöpfen, müssen wir eine Reihe von Maschinen mit jeweils einer Reihe von Festplatten beschaffen.


Genau so ist Hadoop aufgebaut. Hadoop kann von Anfang an auf mehreren Computern ausgeführt werden.



Hadoop-Cluster werden horizontal skaliert

Sie können mehr Speicher und Rechenleistung erzielen, indem Sie einem Hadoop-Cluster weitere Knoten hinzufügen. Dadurch entfällt die Notwendigkeit, immer leistungsfähigere und teurere Hardware zu kaufen.


Hadoop kann mit unstrukturierten / halbstrukturierten Daten umgehen

Hadoop erzwingt kein Schema für die darin gespeicherten Daten. Es kann beliebigen Text und Binärdaten verarbeiten. So kann Hadoop alle unstrukturierten Daten problemlos verarbeiten.


Hadoop-Cluster bieten Speicher und Computing

Wir haben festgestellt, dass getrennte Speicher- und Verarbeitungscluster nicht für Big Data geeignet sind. Hadoop-Cluster bieten jedoch Speicher und verteiltes Computing in einem.

Der Business Case für Hadoop

Hadoop bietet Speicherplatz für Big Data zu angemessenen Kosten

Das Speichern von Big Data mit herkömmlichem Speicher kann teuer sein. Hadoop basiert auf Standardhardware und bietet daher relativ viel Speicherplatz zu angemessenen Kosten. Hadoop wurde in der Praxis im Petabyte-Bereich eingesetzt.


Eine Studie von Cloudera ergab, dass Unternehmen normalerweise zwischen 25.000 und 50.000 USD pro Terabyte und Jahr ausgeben. Mit Hadoop sinken diese Kosten auf einige tausend Dollar pro Terabyte und Jahr. Da Hardware immer billiger wird, sinken diese Kosten weiter.


Mit Hadoop können Sie neue oder mehr Daten erfassen

Manchmal erfassen Unternehmen einen Datentyp nicht, weil es zu teuer war, ihn zu speichern. Da Hadoop Speicher zu angemessenen Kosten bereitstellt, können diese Daten erfasst und gespeichert werden.


Ein Beispiel wären Website-Klickprotokolle. Da das Volumen dieser Protokolle sehr hoch sein kann, haben nicht viele Organisationen diese erfasst. Mit Hadoop ist es jetzt möglich, die Protokolle zu erfassen und zu speichern.


Mit Hadoop können Sie Daten länger speichern

Um das Volumen der gespeicherten Daten zu verwalten, bereinigen Unternehmen regelmäßig ältere Daten. Beispielsweise konnten nur Protokolle der letzten drei Monate gespeichert werden, während ältere Protokolle gelöscht wurden. Mit Hadoop ist es möglich, die historischen Daten länger zu speichern. Auf diese Weise können neue Analysen für ältere historische Daten durchgeführt werden.


Nehmen Sie zum Beispiel Klickprotokolle von einer Website. Vor einigen Jahren wurden diese Protokolle für einen kurzen Zeitraum gespeichert, um Statistiken wie beliebte Seiten zu berechnen. Mit Hadoop ist es jetzt möglich, diese Klickprotokolle für einen längeren Zeitraum zu speichern.


Hadoop bietet skalierbare Analysen

Es macht keinen Sinn, all diese Daten zu speichern, wenn wir sie nicht analysieren können. Hadoop bietet nicht nur verteilten Speicher, sondern auch verteilte Verarbeitung, sodass wir eine große Datenmenge parallel verarbeiten können. Das Rechenframework von Hadoop heißt MapReduce. MapReduce hat sich im Petabyte-Maßstab bewährt.


Hadoop bietet umfassende Analysefunktionen

Native MapReduce unterstützt Java als primäre Programmiersprache. Andere Sprachen wie Ruby, Python und R können ebenfalls verwendet werden.


Das Schreiben von benutzerdefiniertem MapReduce-Code ist natürlich nicht die einzige Möglichkeit, Daten in Hadoop zu analysieren. Die Kartenverkleinerung auf höherer Ebene ist verfügbar. Ein Tool namens Pig übernimmt beispielsweise die englische Sprache für den Datenfluss und übersetzt sie in MapReduce. Ein anderes Tool, Hive, nimmt SQL-Abfragen entgegen und führt sie mit MapReduce aus.


Mit Business Intelligence-Tools (BI) können noch umfassendere Analysen durchgeführt werden. Es gibt auch Werkzeuge für diese Art der Analyse.


Dieser Inhalt ist ein Auszug aus "Hadoop Illuminated" von Mark Kerzner und Sujee Maniyam. Es wurde über die Creative Commons Namensnennung-Keine kommerzielle Nutzung-Weitergabe unter gleichen Bedingungen 3.0 Unported-Lizenz zur Verfügung gestellt.

Wie hadoop hilft, das Big-Data-Problem zu lösen