Inhaltsverzeichnis:
- Definition - Was bedeutet Knowledge Discovery in Datenbanken (KDD)?
- Techopedia erklärt Knowledge Discovery in Datenbanken (KDD)
Definition - Was bedeutet Knowledge Discovery in Datenbanken (KDD)?
Die Wissensermittlung in Datenbanken (KDD) ist der Prozess der Ermittlung nützlichen Wissens aus einer Sammlung von Daten. Diese weit verbreitete Data-Mining-Technik umfasst die Aufbereitung und Auswahl von Daten, die Datenbereinigung, die Einbeziehung von Vorkenntnissen in Datensätze und die Interpretation genauer Lösungen aus den beobachteten Ergebnissen.
Die Hauptanwendungsbereiche von KDD umfassen Marketing, Betrugserkennung, Telekommunikation und Fertigung.
Techopedia erklärt Knowledge Discovery in Datenbanken (KDD)
Üblicherweise wurden Data Mining und Knowledge Discovery manuell durchgeführt. Im Laufe der Zeit wuchs die Datenmenge in vielen Systemen auf mehr als Terabyte und konnte nicht mehr manuell verwaltet werden. Darüber hinaus ist es für die erfolgreiche Existenz eines Unternehmens unerlässlich, zugrunde liegende Datenmuster zu ermitteln. Infolgedessen wurden mehrere Softwaretools entwickelt, um versteckte Daten zu entdecken und Annahmen zu treffen, die Teil der künstlichen Intelligenz waren.
Der KDD-Prozess hat in den letzten 10 Jahren seinen Höhepunkt erreicht. Inzwischen gibt es viele verschiedene Entdeckungsansätze, darunter induktives Lernen, Bayes'sche Statistik, semantische Abfrageoptimierung, Wissenserwerb für Expertensysteme und Informationstheorie. Das ultimative Ziel ist es, Wissen auf hoher Ebene aus Daten auf niedriger Ebene zu extrahieren.
KDD umfasst multidisziplinäre Aktivitäten. Dies umfasst Datenspeicherung und Datenzugriff, Skalierungsalgorithmen für umfangreiche Datensätze und Interpretation der Ergebnisse. Der im Data Warehousing enthaltene Datenbereinigungs- und Datenzugriffsprozess erleichtert den KDD-Prozess. Künstliche Intelligenz unterstützt KDD auch durch die Entdeckung empirischer Gesetze aus Experimenten und Beobachtungen. Die in den Daten erkannten Muster müssen für neue Daten gültig sein und ein gewisses Maß an Sicherheit besitzen. Diese Muster gelten als neues Wissen. Am gesamten KDD-Prozess beteiligte Schritte sind:
- Identifizieren Sie das Ziel des KDD-Prozesses aus Kundensicht.
- Verstehen Sie die beteiligten Anwendungsdomänen und das erforderliche Wissen
- Wählen Sie einen Zieldatensatz oder eine Teilmenge von Datenproben aus, für die eine Ermittlung durchgeführt werden soll.
- Bereinigen und vorverarbeiten Sie Daten, indem Sie Strategien für den Umgang mit fehlenden Feldern festlegen und die Daten gemäß den Anforderungen ändern.
- Vereinfachen Sie die Datensätze, indem Sie unerwünschte Variablen entfernen. Analysieren Sie anschließend nützliche Funktionen, mit denen die Daten je nach Ziel oder Aufgabe dargestellt werden können.
- Kombinieren Sie KDD-Ziele mit Data Mining-Methoden, um verborgene Muster vorzuschlagen.
- Wählen Sie Data Mining-Algorithmen, um verborgene Muster zu erkennen. Dieser Prozess beinhaltet die Entscheidung, welche Modelle und Parameter für den gesamten KDD-Prozess geeignet sein könnten.
- Suchen Sie nach Mustern von Interesse in einer bestimmten Darstellungsform, einschließlich Klassifizierungsregeln oder -bäumen, Regression und Clustering.
- Interpretieren Sie das grundlegende Wissen aus den abgebauten Mustern.
- Nutzen Sie das Wissen und binden Sie es für weitere Aktionen in ein anderes System ein.
- Dokumentieren Sie es und machen Sie Berichte für Interessenten.