Zuhause Datenbanken Was sind schmutzige Daten? - Definition aus techopedia

Was sind schmutzige Daten? - Definition aus techopedia

Inhaltsverzeichnis:

Anonim

Definition - Was bedeutet schmutzige Daten?

Schmutzige Daten beziehen sich auf Daten, die fehlerhafte Informationen enthalten. Es kann auch verwendet werden, wenn auf Daten verwiesen wird, die sich im Speicher befinden und noch nicht in eine Datenbank geladen wurden. Die vollständige Entfernung schmutziger Daten aus einer Quelle ist unpraktisch oder praktisch unmöglich.

Die folgenden Daten können als fehlerhafte Daten betrachtet werden:

  • Irreführende Daten
  • Daten duplizieren
  • Falsche Daten
  • Ungenaue Daten
  • Nicht integrierte Daten
  • Daten, die gegen Geschäftsregeln verstoßen
  • Daten ohne verallgemeinerte Formatierung
  • Falsch unterbrochene oder buchstabierte Daten

Techopedia erklärt Dirty Data

Zusätzlich zur fehlerhaften Dateneingabe können aufgrund der unsachgemäßen Methoden bei der Datenverwaltung und -speicherung schmutzige Daten generiert werden. Einige fehlerhafte Datentypen werden nachfolgend erläutert:

  • Falsche Daten - Um sicherzustellen, dass die Daten gültig oder korrekt sind, muss der eingegebene Wert mit den gültigen Werten des Felds übereinstimmen. Beispielsweise sollte der im Feld Monat eingegebene Wert zwischen 1 und 12 liegen, oder das Alter einer Person muss unter 130 liegen. Die Richtigkeit der Datenwerte kann programmgesteuert mithilfe von Nachschlagetabellen oder mit Bearbeitungsprüfungen erzwungen werden.
  • Ungenaue Daten - Es ist möglich, dass ein Datenwert korrekt, aber nicht genau ist. Manchmal ist es praktisch, anhand anderer Dateien oder Felder zu prüfen, ob der Datenwert auf der Grundlage des verwendeten Kontexts korrekt ist. Die Genauigkeit kann jedoch häufig nur durch manuelle Überprüfung überprüft werden.
  • Verstöße gegen Geschäftsregeln - Bei Daten, die gegen Geschäftsregeln verstoßen, handelt es sich um eine andere Art von unsauberen Daten. Beispielsweise muss ein Gültigkeitsdatum immer vor einem Ablaufdatum liegen. Ein weiteres Beispiel für einen Verstoß gegen eine Geschäftsregel kann der Medicare-Versicherungsanspruch eines Patienten sein, bei dem der Patient möglicherweise noch nicht in den Ruhestand getreten ist und keinen Anspruch auf Medicare hat.
  • Inkonsistente Daten - Nicht überprüfte Datenredundanz führt zu Dateninkonsistenzen. Jede Organisation ist von inkonsistenten und sich wiederholenden Daten betroffen. Dies ist besonders typisch für Kundendaten.
  • Unvollständige Daten - Daten mit fehlenden Werten sind der Haupttyp unvollständiger Daten.
  • Doppelte Daten - Doppelte Daten können aufgrund wiederholter Übermittlungen, fehlerhafter Datenverknüpfung oder Benutzerfehlern auftreten.

Um die Datenqualität zu verbessern und schmutzige Daten zu vermeiden, sollten Unternehmen Methoden einbeziehen, um die Vollständigkeit, Gültigkeit, Konsistenz und Richtigkeit der Daten sicherzustellen.

Was sind schmutzige Daten? - Definition aus techopedia