Große und kleine Daten: Wo liegt der wahre Wert?

2025

Inhaltsverzeichnis:

Wie große Datenmengen verwendet werden
Wo ist der wahre Wert?
Manchmal haben kleine Daten einen größeren (und kostengünstigeren) Einfluss

Big Data ist ein Überbegriff für den Umgang mit großen Datenmengen. Wir alle wissen, dass die Datenmenge umso komplexer wird, je größer sie ist. Herkömmliche Datenbanklösungen können große Datenmengen aufgrund ihrer Komplexität und Größe häufig nicht ordnungsgemäß verwalten. Daher ist es eine herausfordernde Aufgabe, große Datenmengen zu verwalten und echte Erkenntnisse zu gewinnen. Das gleiche "Wert" -Konzept gilt auch für kleine Daten.

Wie große Datenmengen verwendet werden

Herkömmliche Datenbanklösungen, die auf dem RDBMS-Konzept basieren, können Transaktionsdaten sehr gut verwalten und werden häufig in verschiedenen Anwendungen verwendet. Bei der Verarbeitung einer großen Datenmenge (Daten, die archiviert werden und in Terabyte oder Petabyte vorliegen) schlagen diese Datenbanklösungen jedoch häufig fehl. Diese Datenmengen sind zu groß und passen meist nicht in die Architektur traditioneller Datenbanken. Heutzutage ist Big Data zu einem kostengünstigen Ansatz für den Umgang mit größeren Datenmengen geworden. Aus organisatorischer Sicht kann die Nutzung von Big Data in die folgenden Kategorien unterteilt werden, in denen der wahre Wert von Big Data liegt:

Analytische Verwendung

Analysten von Big Data haben viele wichtige verborgene Aspekte von Daten aufgedeckt, deren Verarbeitung zu kostspielig ist. Wenn wir zum Beispiel das Trendinteresse von Schülern an einem bestimmten neuen Thema prüfen müssen, können wir dies tun, indem wir die täglichen Anwesenheitsaufzeichnungen und andere soziale und geografische Fakten analysieren. Diese Fakten sind in der Datenbank erfasst. Wenn wir nicht effizient auf diese Daten zugreifen können, können wir die Ergebnisse nicht sehen.

Neue Produkte aktivieren

In der jüngeren Vergangenheit haben viele neue Webunternehmen wie Facebook damit begonnen, Big Data als Lösung für die Einführung neuer Produkte zu verwenden. Wir alle wissen, wie beliebt Facebook ist - es hat erfolgreich eine leistungsstarke Benutzererfahrung mit Big Data erstellt.

Wo ist der wahre Wert?

Unterschiedliche Big-Data-Lösungen unterscheiden sich in der Art und Weise, in der sie Daten speichern. Letztendlich speichern sie alle Daten in einer flachen Dateistruktur. Im Allgemeinen besteht Hadoop aus dem Dateisystem und einigen Datenabstraktionen auf Betriebssystemebene. Dies umfasst eine MapReduce-Engine und das Hadoop Distributed File System (HDFS). Ein einfacher Hadoop-Cluster enthält einen Hauptknoten und mehrere Arbeitsknoten. Der Masterknoten besteht aus folgenden Elementen:

Task Tracker
Job Tracker
Name Node
Datenknoten

Der Worker-Knoten besteht aus folgenden Elementen:

Task Tracker
Datenknoten

Einige Implementierungen haben nur den Datenknoten. Der Datenknoten ist der tatsächliche Bereich, in dem die Daten liegen. HDFS speichert große Dateien (im Bereich von Terabyte bis Petabyte), die auf mehrere Computer verteilt sind. Die Zuverlässigkeit der Daten auf jedem Knoten wird erreicht, indem die Daten auf allen Hosts repliziert werden. Somit sind die Daten auch dann verfügbar, wenn einer der Knoten inaktiv ist. Auf diese Weise können Anfragen schneller beantwortet werden. Dieses Konzept ist sehr nützlich bei großen Anwendungen wie Facebook. Als Benutzer erhalten wir beispielsweise fast sofort eine Antwort auf unsere Chat-Anfrage. Stellen Sie sich ein Szenario vor, in dem ein Benutzer beim Chatten lange warten muss. Wenn die Nachricht und die nachfolgende Antwort nicht sofort zugestellt werden, wie viele Personen werden dann diese Chat-Tools tatsächlich verwenden?

Zurück zur Facebook-Implementierung: Wenn die Daten nicht in den Clustern repliziert werden, ist eine ansprechende Implementierung nicht möglich. Hadoop verteilt die Daten auf mehreren Computern in einem größeren Cluster und speichert Dateien als Folge von Blöcken. Diese Blöcke haben mit Ausnahme des letzten Blocks die gleiche Größe. Die Blockgröße und der Replikationsfaktor können nach Bedarf angepasst werden. Dateien in HDFS folgen strikt dem Ansatz des einmaligen Schreibens und können daher nur von jeweils einem Benutzer geschrieben oder bearbeitet werden. Entscheidungen bezüglich der Replikation von Blöcken werden vom Namensknoten getroffen. Der Namensknoten empfängt Berichte und Impulsantworten von jedem der Datenknoten. Die Impulsantworten stellen die Verfügbarkeit des entsprechenden Datenknotens sicher. Der Bericht enthält die Details der Blöcke auf dem Datenknoten.

Eine andere Big-Data-Implementierung, Cassandra, verwendet ebenfalls ein ähnliches Verteilungskonzept. Cassandra verteilt Daten basierend auf dem geografischen Standort. Daher werden die Daten in Cassandra basierend auf dem geografischen Standort der Datennutzung getrennt.

Manchmal haben kleine Daten einen größeren (und kostengünstigeren) Einfluss

Laut Rufus Pollock von der Open Knowledge Foundation macht es keinen Sinn, Hype um Big Data zu erzeugen, während bei Small Data immer noch der wahre Wert liegt.

Wie der Name schon sagt, handelt es sich bei kleinen Daten um eine Datenmenge, die auf eine größere Datenmenge abzielt. Kleine Daten sollen den Fokus von der Datennutzung abwenden und dem Trend zu großen Datenmengen entgegenwirken. Der Small-Data-Ansatz hilft dabei, Daten basierend auf bestimmten Anforderungen mit weniger Aufwand zu erfassen. Dies führt zu einer effizienteren Geschäftspraxis bei der Implementierung von Business Intelligence.

Im Kern dreht sich das Konzept der kleinen Daten um Unternehmen, die Ergebnisse benötigen, die weitere Maßnahmen erfordern. Diese Ergebnisse müssen schnell abgerufen werden und die nachfolgende Aktion sollte ebenfalls schnell ausgeführt werden. Auf diese Weise können wir die bei der Big-Data-Analyse häufig verwendeten Systemtypen eliminieren.

Wenn wir einige der spezifischen Systeme berücksichtigen, die für die Erfassung großer Datenmengen erforderlich sind, könnte ein Unternehmen in die Einrichtung einer großen Menge an Serverspeicher investieren, hochentwickelte High-End-Server und die neuesten Data-Mining-Anwendungen verwenden, um verschiedene Datenbits zu verarbeiten einschließlich Datum und Uhrzeit der Benutzeraktionen, demografischer Informationen und anderer Informationen. Der gesamte Datensatz wird in ein zentrales Data Warehouse verschoben, in dem mithilfe komplexer Algorithmen die Daten sortiert und verarbeitet werden, um sie in Form detaillierter Berichte anzuzeigen.

Wir alle wissen, dass diese Lösungen vielen Unternehmen in Bezug auf Skalierbarkeit und Verfügbarkeit zugute gekommen sind. Es gibt Organisationen, die feststellen, dass die Übernahme dieser Ansätze erhebliche Anstrengungen erfordert. Es ist auch richtig, dass in einigen Fällen ähnliche Ergebnisse mit einer weniger robusten Data Mining-Strategie erzielt werden.

Mit kleinen Daten können Unternehmen auf die neuesten und neuesten Technologien zurückgreifen, die anspruchsvollere Geschäftsprozesse unterstützen. Unternehmen, die kleine Datenmengen fördern, argumentieren, dass es aus geschäftlicher Sicht wichtig ist, ihre Ressourcen effizient einzusetzen, damit zu hohe Technologieinvestitionen in gewissem Maße vermieden werden können.

Wir haben viel über die Big-Data- und Small-Data-Realität diskutiert, müssen jedoch verstehen, dass die Auswahl der richtigen Plattform (Big-Data oder Small-Data) für die richtige Verwendung der wichtigste Teil der gesamten Übung ist. Und die Wahrheit ist, dass Big Data zwar viele Vorteile bieten kann, aber nicht immer das Beste ist.