Zuhause Audio Wie kann sql on hadoop bei der Big-Data-Analyse helfen?

Wie kann sql on hadoop bei der Big-Data-Analyse helfen?

Inhaltsverzeichnis:

Anonim

SQL on Hadoop ist eine Gruppe analytischer Anwendungstools, die eine SQL-ähnliche Abfrage und Verarbeitung von Daten mit den neuesten Hadoop-Datenframeworkelementen kombinieren. Das Aufkommen von SQL unter Hadoop ist eine wichtige Entwicklung für die Big-Data-Verarbeitung, da es breiteren Personengruppen ermöglicht, erfolgreich mit dem Hadoop-Datenverarbeitungsframework zu arbeiten, indem SQL-Abfragen für die enormen Datenmengen ausgeführt werden, die Hadoop verarbeitet. Offensichtlich war das Hadoop-Framework bisher nicht so zugänglich für Menschen, insbesondere was die Abfragefunktionen anbelangt. Basierend auf der Entwicklung wurden verschiedene Tools in Arbeit genommen, die versprechen, die Produktivität von Unternehmen bei der Verarbeitung und Analyse von Big Data mit Qualität und Geschwindigkeit zu verbessern. Es ist auch nicht erforderlich, viel in das Erlernen des Tools zu investieren, wie dies bei herkömmlichen SQL-Kenntnissen der Fall sein sollte.

Definition von SQL auf Hadoop

SQL on Hadoop ist eine Gruppe von Anwendungen, mit denen Sie SQL-Abfragen für große Datenmengen ausführen können, die vom Hadoop-Datenverarbeitungsframework gehostet werden. Offensichtlich ist das Abfragen, Abrufen und Analysieren von Daten durch das Hinzufügen von SQL auf Hadoop einfacher geworden. Da SQL ursprünglich für relationale Datenbanken entwickelt wurde, musste es gemäß dem Hadoop 1-Modell, das MapReduce und das Hadoop Distributed File System (HDFS) umfasst, und dem Hadoop 2-Modell, das MapReduce und HDFS nicht enthält, geändert werden.

Eine der frühesten Bemühungen, SQL mit Hadoop zu kombinieren, führte zur Erstellung des Hive-Data-Warehouse mit der HiveQL-Software, mit der SQL-Abfragen in MapReduce-Jobs übersetzt werden konnten. Danach wurden mehrere Anwendungen entwickelt, die ähnliche Aufgaben ausführen konnten. Unter den neueren Werkzeugen sind Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Spleißmaschine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) und Tez (Hive on Tez) hervorzuheben.

Wie kann sql on hadoop bei der Big-Data-Analyse helfen?