Inhaltsverzeichnis:
Big Data, der eingängige Name für große Mengen strukturierter, unstrukturierter oder semi-strukturierter Daten, ist bekanntermaßen schwierig zu erfassen, zu speichern, zu verwalten, zu teilen, zu analysieren und zu visualisieren, zumindest unter Verwendung herkömmlicher Datenbank- und Softwareanwendungen. Deshalb haben Big Data-Technologien das Potenzial, riesige Datenmengen effektiv und effizient zu verwalten und zu verarbeiten. Und Apache Hadoop bietet das Framework und die zugehörigen Technologien für die verteilte Verarbeitung großer Datenmengen über mehrere Computercluster hinweg. Um Big Data wirklich zu verstehen, müssen Sie etwas über Hadoop wissen. Hier werfen wir einen Blick auf die wichtigsten Begriffe, die Sie in Bezug auf Hadoop hören werden - und was sie bedeuten.
Webinar: Big Iron, Meet Big Data: Freigabe von Mainframe-Daten mit Hadoop & Spark Hier registrieren |
Aber zuerst ein Blick auf die Funktionsweise von Hadoop
Bevor Sie sich mit dem Hadoop-Ökosystem befassen, müssen Sie zwei grundlegende Dinge klar verstehen. Das erste ist, wie eine Datei in Hadoop gespeichert wird. Die zweite ist, wie gespeicherte Daten verarbeitet werden. Alle Hadoop-bezogenen Technologien arbeiten hauptsächlich in diesen beiden Bereichen und machen es benutzerfreundlicher. (Grundlagen zur Funktionsweise von Hadoop finden Sie unter Wie Hadoop zur Lösung des Big-Data-Problems beiträgt.)
Nun zu den Begriffen.