Zuhause Entwicklung Was ist Tokenisierung? - Definition aus techopedia

Was ist Tokenisierung? - Definition aus techopedia

Inhaltsverzeichnis:

Anonim

Definition - Was bedeutet Tokenisierung?

Tokenisierung ist das Aufteilen einer Folge von Zeichenfolgen in Teile wie Wörter, Schlüsselwörter, Phrasen, Symbole und andere Elemente, die als Token bezeichnet werden. Tokens können einzelne Wörter, Phrasen oder auch ganze Sätze sein. Während der Tokenisierung werden einige Zeichen wie Satzzeichen verworfen. Die Token werden zur Eingabe für andere Prozesse wie Parsing und Text Mining.

Die Tokenisierung wird in der Informatik verwendet und spielt dort eine große Rolle bei der lexikalischen Analyse.

Techopedia erklärt Tokenization

Die Tokenisierung beruht hauptsächlich auf einfachen Heuristiken, um die Token in wenigen Schritten zu trennen:

  • Token oder Wörter werden durch Leerzeichen, Satzzeichen oder Zeilenumbrüche getrennt
  • Leerzeichen oder Satzzeichen können je nach Bedarf eingefügt werden oder auch nicht
  • Alle Zeichen in zusammenhängenden Zeichenfolgen sind Teil des Tokens. Token können nur aus Buchstaben, alphanumerischen Zeichen oder numerischen Zeichen bestehen.

Tokens selbst können auch Trennzeichen sein. Beispielsweise können in den meisten Programmiersprachen Bezeichner zusammen mit arithmetischen Operatoren ohne Leerzeichen platziert werden. Obwohl es den Anschein hat, als würde dies als einzelnes Wort oder Token erscheinen, betrachtet die Grammatik der Sprache den mathematischen Operator (ein Token) tatsächlich als Trennzeichen. Selbst wenn mehrere Token zusammengefasst werden, können sie dennoch über das Mathematische getrennt werden Operator.

Was ist Tokenisierung? - Definition aus techopedia