Inhaltsverzeichnis:
Definition - Was bedeutet Kanonisierung?
Die Kanonisierung ist der Prozess der Konvertierung von Daten, die mehr als eine Darstellung enthalten, in ein standardmäßiges genehmigtes Format. Eine solche Konvertierung stellt sicher, dass die Daten den kanonischen Regeln entsprechen. Dies vergleicht verschiedene Darstellungen, um die Äquivalenz sicherzustellen, die Anzahl unterschiedlicher Datenstrukturen zu zählen, eine sinnvolle Sortierreihenfolge festzulegen und die Effizienz des Algorithmus zu verbessern, wodurch wiederholte Berechnungen vermieden werden.
Die Kanonisierung wird in zahlreichen Internet- und Computeranwendungen verwendet, um kanonische Daten aus nichtkanonischen Informationen zu generieren. Die kanonische Darstellung von Daten ist in Deutschland weit verbreitet
Suchmaschinenoptimierung (SEO), Webserver, Unicode und XML.
Dieser Begriff wird auch als C14N, Standardisierung oder Normalisierung bezeichnet.
Techopedia erklärt die Kanonisierung
In der Suchmaschinenoptimierung behandelt die URL-Kanonisierung Webinhalte mit mehr als einer möglichen URL. Dies kann zu Unstimmigkeiten bei der Suche führen, da die Suchmaschine möglicherweise nicht weiß, welche URL angezeigt werden soll. Bei der Kanonisierung wird die beste URL aus mehreren Auswahlmöglichkeiten ausgewählt, die sich in der Regel auf Startseiten beziehen. Obwohl bestimmte URLs identisch zu sein scheinen, geben Webserver unterschiedliche Ergebnisse für die URLs zurück. Suchmaschinen berücksichtigen nur eine URL in kanonischer Form.
Die Computersicherheit basiert auf der Kanonisierung von Dateinamen. Einige Webserver haben möglicherweise eine Sicherheitsregel, um Dateien nur in einem bestimmten Verzeichnis auszuführen. Die Datei wird dann nur ausgeführt, wenn der Pfad das angegebene Verzeichnis im Namen hat. Es ist besonders darauf zu achten, dass der Dateiname eine eindeutige Darstellung ist. Diese Sicherheitsanfälligkeit wird als Directory Traversal bezeichnet.
Die meisten Zeichen im Unicode-Standard haben Codierungen mit variabler Länge. Dies erfordert die Berücksichtigung der einzelnen Zeichenfolgen und macht die Gültigkeitsprüfung der Zeichenfolgen komplexer. Wenn nicht alle Zeichenkodierungen in der Software-Implementierung berücksichtigt werden, besteht die Möglichkeit von Fehlern. Dieses Problem kann durch die Verwendung einer einzelnen Codierung für jedes Zeichen behoben werden. Die beste Alternative, die jede Software verwenden kann, besteht darin, zu überprüfen, ob die Zeichenfolge kanonisiert ist. Zeichenfolgen, die nicht kanonisiert sind, können abgelehnt werden.
Ein kanonisches XML-Dokument ist ein XML-Dokument in kanonischer XML-Form. Es wird durch eine kanonische XML-Spezifikation definiert. Die Kanonisierung in XML beseitigt Leerzeichen in Tags, sortiert Namespace-Referenzen und beseitigt redundante Referenzen und verwendet bestimmte Zeichencodierungen. Außerdem werden XML- und DOCTYPE-Deklarationen entfernt und relative URLs in absolute URLs umgewandelt.