Inhaltsverzeichnis:
Apache Hadoop ist seit langem die Grundlage für Big-Data-Anwendungen und gilt als Basisdatenplattform für alle Big-Data-Angebote. In-Memory-Datenbanken und Berechnungen gewinnen jedoch aufgrund der schnelleren Leistung und der schnellen Ergebnisse an Beliebtheit. Apache Spark ist ein neues Framework, das In-Memory-Funktionen für eine schnelle Verarbeitung nutzt (fast 100-mal schneller als Hadoop). Daher wird das Spark-Produkt zunehmend in einer Welt mit großen Datenmengen und vor allem zur schnelleren Verarbeitung eingesetzt.
Webinar: Die Kraft des Vorschlags: Wie ein Datenkatalog Analysten unterstützt Hier registrieren |
Was ist Apache Spark?
Apache Spark ist ein Open-Source-Framework für die schnelle und einfache Verarbeitung großer Datenmengen (Big Data). Es eignet sich für Analytics-Anwendungen, die auf Big Data basieren. Spark kann in einer Hadoop-Umgebung, eigenständig oder in der Cloud verwendet werden. Es wurde an der University of California entwickelt und später der Apache Software Foundation angeboten. Somit gehört es zur Open-Source-Community und kann sehr kostengünstig sein, was es Amateur-Entwicklern ermöglicht, problemlos zu arbeiten. (Weitere Informationen zu Hadoops Open Source finden Sie unter Was ist der Einfluss von Open Source auf das Apache Hadoop-Ökosystem?)
Der Hauptzweck von Spark besteht darin, Entwicklern ein Anwendungsframework zur Verfügung zu stellen, das auf einer zentrierten Datenstruktur basiert. Spark ist außerdem äußerst leistungsfähig und verfügt über die Fähigkeit, große Datenmengen in kurzer Zeit schnell zu verarbeiten, wodurch eine äußerst gute Leistung erzielt wird. Dies macht es viel schneller als der angeblich engste Konkurrent, Hadoop.