TF.IDF (Begriffhäufigkeit – inverse Dokumentfrequenz) ist eine numerische Statistik, die anzeigt, wie wichtig ein Wort oder eine Phrase für ein Dokument in einer Sammlung von Dokumenten ist.
Es ist ein Score, der im Verhältnis zu der Zahl steht, wie oft ein Wort in einem Dokument erscheint, ausgewogen bei der Häufigkeit des Wortes in einer Sammlung von Dokumenten.