Hadoop Analytics: Nicht so einfach für mehrere Datenquellen

2025

Inhaltsverzeichnis:

Daten aus verschiedenen Quellen schwer zu verbinden und zuzuordnen
Hadoop-Experten versuchen, Daten zusammenzuführen

Hadoop ist ein großartiger Ort, um Daten für die Analyseverarbeitung auszulagern oder größere Volumina einer einzelnen Datenquelle zu modellieren, die mit vorhandenen Systemen nicht möglich sind. Da Unternehmen jedoch Daten aus vielen Quellen in Hadoop einbringen, steigt der Bedarf an Datenanalysen für verschiedene Quellen, was äußerst schwierig sein kann. Dieser Beitrag ist der erste in einer dreiteiligen Reihe, in der die Probleme erläutert werden, mit denen Unternehmen konfrontiert sind, wenn sie versuchen, verschiedene Datenquellen und -typen in Hadoop zu analysieren und wie diese Herausforderungen gelöst werden können. Der heutige Beitrag konzentriert sich auf die Probleme, die beim Kombinieren mehrerer interner Quellen auftreten. In den nächsten beiden Beiträgen wird erläutert, warum diese Probleme mit dem Hinzufügen externer Datenquellen immer komplexer werden und wie neue Ansätze zu ihrer Lösung beitragen.

Daten aus verschiedenen Quellen schwer zu verbinden und zuzuordnen

Daten aus verschiedenen Quellen weisen unterschiedliche Strukturen auf, die es schwierig machen, Datentypen miteinander zu verbinden und zuzuordnen, selbst Daten aus internen Quellen. Das Kombinieren von Daten kann besonders schwierig sein, wenn Kunden mehrere Kontonummern haben oder eine Organisation andere Unternehmen erworben oder mit diesen fusioniert hat. In den letzten Jahren haben einige Unternehmen versucht, mithilfe von Data Discovery- oder Data Science-Anwendungen Daten aus mehreren in Hadoop gespeicherten Quellen zu analysieren. Dieser Ansatz ist problematisch, da er viele Vermutungen erfordert: Benutzer müssen sich entscheiden, welche Fremdschlüssel zum Verbinden verschiedener Datenquellen verwendet werden sollen, und Annahmen treffen, wenn Datenmodell-Overlays erstellt werden. Diese Vermutungen sind schwer zu testen und oft falsch, wenn sie im Maßstab angewendet werden, was zu fehlerhafter Datenanalyse und Misstrauen gegenüber den Quellen führt.

Hadoop-Experten versuchen, Daten zusammenzuführen

Aus diesem Grund haben Unternehmen, die Daten aus verschiedenen Datenquellen analysieren möchten, Hadoop-Experten beauftragt, benutzerdefinierte, quellenspezifische Skripts zum Zusammenführen von Datensätzen zu erstellen. Bei diesen Hadoop-Experten handelt es sich normalerweise nicht um Experten für Datenintegration oder Entitätsauflösung, sie geben jedoch ihr Bestes, um die unmittelbaren Anforderungen des Unternehmens zu erfüllen. Diese Experten verwenden normalerweise Pig oder Java, um strenge und schnelle Regeln zu erstellen, die festlegen, wie strukturierte Daten aus bestimmten Quellen kombiniert werden sollen, z. B. anhand einer Kontonummer passende Datensätze. Nachdem ein Skript für zwei Quellen geschrieben wurde, muss, wenn eine dritte Quelle hinzugefügt werden muss, das erste Skript weggeworfen und ein neues Skript erstellt werden, das drei bestimmte Quellen kombiniert. Das gleiche passiert, wenn eine andere Quelle hinzugefügt wird und so weiter. Dieser Ansatz ist nicht nur ineffizient, sondern schlägt auch fehl, wenn er im Maßstab angewendet wird, behandelt Randfälle schlecht, kann zu einer großen Anzahl doppelter Datensätze führen und führt häufig viele Datensätze zusammen, die nicht kombiniert werden sollten.