Eine Stoppliste oder eine Stoppwortliste ist eine vordefinierte Liste mit Wörtern, die während der Informationsabruf- und Indexingvorgänge aus einem Text herausgefiltert wurden.
Nutzung
Der Zweck einer Stoppliste ist es, Wörter auszuschließen, die in einer Sprache so häufig vorkommen, dass sie nicht dabei helfen, ein Dokument von einem anderen zu unterscheiden.
Operatoren
Stopplisten enthalten meist Wörter wie “ein”, “eine”, “der”, “in”, “auf”, “von”, sowie andere Präpositionen, Konjugationen und Artikel. Diese Wörter haben alleine jedoch keine große Bedeutung und ihre Einbeziehung in einer Suchanfrage oder einem Index würde zu vielen irrelevanten Suchergebnissen führen.
Sprachverarbeitung
In der natürlichen Sprachverarbeitung (NLP) werden Stopplisten oft verwendet, um textuelle Daten vor Aufgaben wie der Dokumentenklassifizierung, der Sentimentanalyse oder dem Themen-Modeling vorzuverarbeiten.
Wenn Stoppwörter aus einem Dokument entfernt werden, sind die restlichen Wörter informativer und offenbaren die zugrunde liegenden Themen und Inhalte.