Tokenisierung

Die Tokenisierung ist ein Vorgang, in dem die Elemente eines Satzes vor der Erstellung eines Indexes identifiziert werden, wie Phrasen, Wörter, Abkürzungen und Symbole.