Inhaltsverzeichnis:
- Mythos: Bei der Übernahme von Big Data haben wir alle die Nase vorn.
- Mythos: Wir haben so viele Daten; Wir müssen uns nicht um jeden kleinen Datenfehler kümmern.
- Mythos: Die Big-Data-Technologie macht eine Datenintegration überflüssig.
- Mythos: Die Verwendung eines Data Warehouse für erweiterte Analysen ist sinnlos.
- Mythos: Data Lakes werden das Data Warehouse ersetzen.
- Big Data funktioniert - Neue Datenmanipulationsmethoden funktionieren möglicherweise nicht
Bereits im Mai 2014 veröffentlichte Forrester Research zwei Berichte, in denen bestimmte Schlussfolgerungen zum Hype um Big Data gezogen wurden. Das Research-Unternehmen befragte mehr als 250 Führungskräfte aus den Bereichen Marketing und Business Development. Laut den Autoren des Berichts hat die Big-Data-Rhetorik ein Allzeithoch erreicht, und Technologieanbieter bewerben Produkte mit scheinbar unglaublichen Behauptungen.
Gartner stimmt Forrester Research zu; Ein beträchtlicher Hype um Big Data. Im Bericht vom September 2014 entlarvt Gartner fünf der größten Datenmythen, und Gartner-Analysten äußern sich zu den Missverständnissen in Bezug auf Big Data und dessen Manipulation. Was sind die größten Mythen von Big Data? Werfen wir einen Blick.
Mythos: Bei der Übernahme von Big Data haben wir alle die Nase vorn.
Laut Gartner ist das Interesse an Big Data so groß wie nie zuvor. Trotzdem haben nur knapp 13 Prozent der Befragten ein funktionierendes System. Der Grund: Die meisten Unternehmen müssen erst noch herausfinden, wie sie den Wert großer Datenbestände ermitteln können. Hier ist Gartners Umfrage optimistischer als der Forrester-Bericht, der ergab, dass nur 9 Prozent der Umfrageteilnehmer angaben, im nächsten Jahr Big-Data-Technologien einzuführen. (Big Data hat viel zu bieten. Erfahren Sie mehr in 5 praktischen Problemen, die Big Data lösen kann.)Mythos: Wir haben so viele Daten; Wir müssen uns nicht um jeden kleinen Datenfehler kümmern.
Gartner ist besorgt über ein Problem, das wir Menschen haben: "Wir haben so viel, das Wenige, das schlecht ist, spielt keine Rolle." Ted Friedman, Vice President und angesehener Analyst bei Gartner, ist der Ansicht, dass dies die falsche Sichtweise auf die Situation ist.
"Obwohl jeder einzelne Fehler eine viel geringere Auswirkung auf den gesamten Datensatz hat als bei weniger Daten, gibt es in Wirklichkeit mehr Fehler als zuvor, weil mehr Daten vorliegen", sagte Friedman. "Daher bleibt die allgemeine Auswirkung von Daten mit schlechter Qualität auf den gesamten Datensatz gleich."
Friedman fügt einen weiteren Grund zur Besorgnis hinzu. Bei der Big-Data-Erfassung werden häufig Daten von außerhalb des Unternehmens erfasst, die daher von unbekannter Struktur und Herkunft sind. Dies erhöht das Fehlerpotential.
Mythos: Die Big-Data-Technologie macht eine Datenintegration überflüssig.
Es gibt zwei wichtige Datenanalysestrategien, die auf Big Data angewendet werden können: "Schema beim Schreiben" oder "Schema beim Lesen". Bis vor kurzem war das Schema beim Schreiben die einzige verwendete Methode. Schema on Read ist der aktuelle Trend in der Datenbankverwaltung. Im Gegensatz zu Schema-on-Write, für das ein strukturiertes Format erforderlich ist, werden Daten in ihrem Rohformat in Datenbanken mit Schema-on-Read geladen. Dann biegen Entwickler - unter Verwendung von unstrukturierten Datenbankplattformen wie Hadoop - die unterschiedlichen Daten in ein verwendbares Format. Schema on Read hat offensichtliche Vorteile, aber, wie Gartner erwähnt, muss irgendwann eine Datenintegration stattfinden.Mythos: Die Verwendung eines Data Warehouse für erweiterte Analysen ist sinnlos.
Die Zeit für die Erstellung eines Data Warehouse erscheint vielen Informationsmanagern sinnlos, insbesondere wenn sich neu erfasste Daten von denen im Data Warehouse unterscheiden. Gartner warnt jedoch erneut davor, dass auch fortgeschrittene Datenanalysen Data Warehouses und neue Daten verwenden werden, was bedeutet, dass Datenintegratoren:- Verfeinern Sie neue Datentypen, damit sie für die Analyse geeignet sind
- Entscheiden Sie, welche Daten relevant sind und welche Datenqualität erforderlich ist
- Bestimmen Sie, wie die Daten aggregiert werden sollen
- Verstehen Sie, dass die Datenveredelung auch an anderen Orten als im Data Warehouse erfolgen kann
Mythos: Data Lakes werden das Data Warehouse ersetzen.
Data Lakes sind Repositorys für unterschiedliche Daten im Gegensatz zu Data Warehouses, in denen Daten in einem strukturierten Format vorliegen. Das Erstellen eines Datensees erfordert im Vergleich zu Data Warehouses nur einen geringen Aufwand (keine Formatierung der Daten erforderlich), weshalb Data Lakes von Interesse sind.
Gartner betont, dass es nicht darauf ankommt, die Daten zu haben - es ist entscheidend, die erfassten Daten für fundierte Entscheidungen zu manipulieren. Darüber hinaus ist die Verwendung von (etwas unbewiesenen) Datenseen zur Erleichterung der Entscheidungsfindung problematisch.
"Data Warehouses können bereits eine Vielzahl von Benutzern in einem Unternehmen unterstützen", sagte Nick Heudecker, Research Director bei Gartner. "Führungskräfte im Bereich Informationsmanagement müssen nicht darauf warten, dass Data Lakes aufholen." (Erfahren Sie mehr über die Einführung von Big Data in 7 Punkten, die Sie vor der Einführung über Big Data wissen müssen.)
Big Data funktioniert - Neue Datenmanipulationsmethoden funktionieren möglicherweise nicht
Der Grund, warum Gartner "Größte Datenmythen" anstelle von "Big-Data-Mythen" sagte, wird nach dem Lesen des Berichts deutlich. Gartner misstraut Big Data nicht. Gartner ist misstrauisch gegenüber denen, die der Meinung sind, dass die neueren Methoden zur Manipulation von Big Data für die "Prime Time" bereit sind.