Q:
Wie kann ich lernen, mit Hadoop Big Data zu analysieren?
EIN:Das als Hadoop bekannte Apache-Softwareset wird zu einer sehr beliebten Ressource für den Umgang mit großen Datenmengen. Diese Art von Datenverarbeitungs-Software wurde entwickelt, um die Aggregation von Daten auf bestimmte Weise zu unterstützen, basierend auf Entwürfen, die bestimmte Arten von Datenprojekten effizienter machen können. Hadoop ist jedoch nur eines von vielen Tools für den Umgang mit großen Datenmengen.
Eine der ersten und grundlegendsten Methoden zum Erlernen der Big-Data-Analyse mit Hadoop besteht darin, einige der Hauptkomponenten von Hadoop und deren Funktionsweise zu verstehen. Dazu gehören eine Hadoop YARN- "Ressourcenverwaltungsplattform", die auf bestimmte Arten von Netzwerkkonfigurationen angewendet werden kann, sowie ein Hadoop MapReduce-Funktionssatz, der für große Datenmengen gilt. Es gibt auch ein verteiltes Hadoop-Dateisystem (HDFS), mit dem Daten auf verteilten Systemen gespeichert werden können, damit sie schnell und effizient indiziert oder abgerufen werden können.
Darüber hinaus können diejenigen, die sich mit Hadoop vertraut machen möchten, in den einzelnen veröffentlichten Ressourcen nach Fachleuten suchen, die die Software auf einer relatierbaren Ebene erklären. Dieses Beispiel von Chris Stucchio in einem persönlichen Blog bietet eine Reihe hervorragender Punkte zu Hadoop und zur Datenskala. Eine der grundlegenden Erkenntnisse ist, dass Hadoop möglicherweise häufiger als nötig eingesetzt wird und nicht die beste Lösung für ein einzelnes Projekt ist. Durch das Überprüfen dieser Art von Ressourcen werden Fachleute mit den Einzelheiten der Verwendung von Hadoop in einem bestimmten Szenario vertraut. Stucchio stellt auch Metaphern zur Verfügung, um Hadoops Funktionen auf bestimmte physische Aufgaben zu beziehen. In diesem Beispiel wird die Anzahl der Bücher in einer Bibliothek gezählt, während eine Hadoop-Funktion diese Bibliothek möglicherweise in Abschnitte aufteilt und einzelne Zählungen bereitstellt, die zu einem aggregierten Datenergebnis zusammengefasst werden.
Eine tiefere Möglichkeit für Profis, mehr über Hadoop und seine Anwendung auf Big Data zu erfahren, sind spezifische Schulungsressourcen und -programme. Beispielsweise bietet das Online-Lernunternehmen Cloudera, ein führender Anbieter von Fernschulungen, eine Reihe interessanter Optionen für die Verwendung von Hadoop und ähnliche Arten der Datenverarbeitung.