Inhaltsverzeichnis:
Alle reden von Hadoop, der heißen neuen Technologie, die unter Entwicklern hoch geschätzt wird und die Welt (wieder) verändern könnte. Aber was ist es überhaupt? Ist es eine Programmiersprache? Eine Datenbank? Ein Verarbeitungssystem? Ein gemütlicher indischer Tee?
Die breite Antwort: Hadoop ist all diese Dinge (außer dem Tee gemütlich) und vieles mehr. Es handelt sich um eine Softwarebibliothek, die ein Programmierframework für die kostengünstige und nützliche Verarbeitung eines anderen modernen Schlagworts bereitstellt: Big Data.
Woher kam Hadoop?
Apache Hadoop ist Teil des Stiftungsprojekts der Apache Software Foundation, einer gemeinnützigen Organisation, deren Mission es ist, "Software für das Gemeinwohl bereitzustellen". Daher ist die Hadoop-Bibliothek eine kostenlose Open-Source-Software, die allen Entwicklern zur Verfügung steht.
Die zugrunde liegende Technologie, die Hadoop antreibt, wurde tatsächlich von Google erfunden. Früher brauchte die nicht ganz riesige Suchmaschine eine Möglichkeit, die riesigen Datenmengen, die sie aus dem Internet sammelte, zu indizieren und in aussagekräftige, relevante Ergebnisse für ihre Benutzer umzuwandeln. Da es auf dem Markt nichts gibt, was ihren Anforderungen gerecht werden könnte, hat Google eine eigene Plattform aufgebaut.
Diese Innovationen wurden in einem Open-Source-Projekt namens Nutch veröffentlicht, das Hadoop später als Grundlage verwendete. Im Wesentlichen nutzt Hadoop die Leistungsfähigkeit von Google für Big Data auf eine Weise, die für Unternehmen aller Größen erschwinglich ist.
Wie funktioniert Hadoop?
Wie bereits erwähnt, ist Hadoop nicht eine Sache - es sind viele Dinge. Die Softwarebibliothek von Hadoop besteht aus vier Hauptteilen (Modulen) und einer Reihe von Zusatzlösungen (wie Datenbanken und Programmiersprachen), die den Einsatz in der Praxis verbessern. Die vier Module sind:- Hadoop Common: Dies ist die Sammlung allgemeiner Dienstprogramme (die allgemeine Bibliothek), die Hadoop-Module unterstützt.
- Hadoop Distributed File System (HDFS): Ein robustes verteiltes Dateisystem ohne Einschränkungen für gespeicherte Daten (dh Daten können entweder strukturiert oder unstrukturiert und schemenlos sein, wobei viele DFS nur strukturierte Daten speichern), das Hochdurchsatzzugriff mit Redundanz bietet ( Mit HDFS können Daten auf mehreren Computern gespeichert werden. Wenn ein Computer ausfällt, wird die Verfügbarkeit über die anderen Computer aufrechterhalten.
- Hadoop YARN: Dieses Framework ist für die Auftragsplanung und das Cluster-Ressourcenmanagement verantwortlich. Es stellt sicher, dass die Daten auf mehrere Maschinen verteilt sind, um die Redundanz aufrechtzuerhalten. YARN ist das Modul, mit dem Hadoop eine kostengünstige und kostengünstige Möglichkeit zur Verarbeitung von Big Data bietet.
- Hadoop MapReduce: Dieses YARN-basierte System, das auf der Google-Technologie basiert, verarbeitet parallel große Datenmengen (strukturiert und unstrukturiert). MapReduce ist auch in den meisten heutigen Big-Data-Verarbeitungs-Frameworks zu finden, einschließlich MPP- und NoSQL-Datenbanken.
Hardware, die die für die Arbeit mit Big Data erforderliche Rechenleistung bewältigt, ist, gelinde gesagt, teuer. Dies ist die wahre Innovation von Hadoop: Die Fähigkeit, enorme Mengen an Rechenleistung auf mehrere kleinere Maschinen zu verteilen, von denen jede über eine eigene lokalisierte Berechnung und Speicherung verfügt, sowie die integrierte Redundanz auf Anwendungsebene, um Ausfälle zu vermeiden.
Was macht Hadoop?
Einfach ausgedrückt, macht Hadoop Big Data für jedermann zugänglich und nutzbar.
Vor Hadoop arbeiteten Unternehmen, die Big Data verwendeten, hauptsächlich mit relationalen Datenbanken und Enterprise Data Warehouses (die große Mengen teurer Hardware verwenden). Während diese Tools hervorragend für die Verarbeitung strukturierter Daten geeignet sind - Daten, die bereits sortiert und auf übersichtliche Weise organisiert sind -, war die Kapazität für die Verarbeitung unstrukturierter Daten äußerst begrenzt, sodass sie praktisch nicht vorhanden waren. Um nutzbar zu sein, mussten die Daten zunächst so strukturiert werden, dass sie ordentlich in Tabellen passen.
Das Hadoop-Framework ändert diese Anforderung und das kostengünstig. Mit Hadoop können riesige Datenmengen von 10 bis 100 Gigabyte und mehr, sowohl strukturiert als auch unstrukturiert, mit normalen (Commodity-) Servern verarbeitet werden.
Hadoop bietet potenzielle Big-Data-Anwendungen für Unternehmen jeder Größe und Branche. Das Open-Source-Framework ermöglicht es Finanzunternehmen, ausgefeilte Modelle für die Portfolio-Bewertung und Risikoanalyse zu erstellen, oder Online-Einzelhändler, ihre Suchantworten zu optimieren und Kunden auf Produkte hinzuweisen, die sie mit größerer Wahrscheinlichkeit kaufen.
Mit Hadoop sind die Möglichkeiten wirklich grenzenlos.