Stemming ist der Prozess der Reduktion eines Wortes auf seinen Wortstamm, der an Suffixe und Präfixe oder an die Wurzeln von Wörtern, die als Lemma bekannt sind, anknüpft. Stemming ist wichtig für das natürliche Sprachverständnis (NLU) und die natürliche Sprachverarbeitung (NLP).
Stemming ist ein Teil der linguistischen Studien in der Morphologie und der künstlichen Intelligenz (KI) Information Retrieval und Extraktion. Stemming und KI-Wissen extrahieren aussagekräftige Informationen aus riesigen Quellen wie Big Data oder dem Internet, da zusätzliche Formen eines Wortes zu einem Thema gesucht werden müssen, um die besten Ergebnisse zu erhalten. Stemming ist auch ein Teil von Suchanfragen und Internet-Suchmaschinen.
Das Erkennen, Suchen und Abrufen von mehr Formen von Wörtern liefert mehr Ergebnisse. Wenn eine Form eines Wortes erkannt wird, kann es möglich sein, Suchergebnisse zu liefern, die sonst vielleicht übersehen worden wären. Diese zusätzliche Information ist der Grund, warum Stemming ein wesentlicher Bestandteil von Suchanfragen und Informationsbeschaffung ist.
Wenn ein neues Wort gefunden wird, kann es neue Forschungsmöglichkeiten bieten. Oft kann man die besten Ergebnisse erzielen, wenn man die morphologische Grundform des Wortes verwendet: das Lemma. Um das Lemma zu finden, wird das Stemming von einem Individuum oder einem Algorithmus durchgeführt, der von einem KI-System verwendet werden kann. Stemming verwendet eine Reihe von Ansätzen, um ein Wort auf seine Basis zu reduzieren, egal welche flektierte Form angetroffen wird.
Es kann einfach sein, einen Stemming-Algorithmus zu entwickeln. Einige einfache Algorithmen werden einfach erkannte Präfixe und Suffixe entfernen. Allerdings sind diese einfachen Algorithmen anfällig für Fehler. Zum Beispiel kann ein Fehler Wörter wie faul zu lazi statt faul reduzieren. Solche Algorithmen können auch Schwierigkeiten mit Begriffen haben, deren Flexionsformen das Lemma nicht perfekt widerspiegeln, wie zum Beispiel bei saw und see.
Beispiele für Stemming-Algorithmen sind:
Nachschlagen in Tabellen mit flektierten Formen von Wörtern. Dieser Ansatz erfordert, dass alle flektierten Formen aufgelistet werden.
Suffix strippi . Algorithmen erkennen bekannte Suffixe an flektierten Wörtern und entfernen sie.
Lemmatisierung. Dieser Algorithmus sammelt alle flektierten Formen eines Wortes, um sie auf ihre Stammform oder Lemma herunterzubrechen. Wörter werden mit Hilfe der Regeln der Grammatik in eine Wortart (die Kategorien der Wortarten) zerlegt.
Stochastische Modelle. Dieser Algorithmus gewinnt aus Tabellen von flektierten Formen von Wörtern. Durch das Verstehen von Suffixen und den Regeln, nach denen sie angewendet werden, kann ein Algorithmus neue Wörter stemmen.