Stoppwörter in Python entfernen
-
Verwenden Sie das Paket
NLTK
, um Stoppwörter in Python zu entfernen -
Verwenden Sie das Paket
stop-words
, um Stoppwörter in Python zu entfernen -
Verwenden Sie die Methode
remove_stpwrds
in der Bibliothektextcleaner
, um Stoppwörter in Python zu entfernen
Stoppwörter sind die häufig verwendeten Wörter, die von der Suchmaschine im Allgemeinen ignoriert werden, wie z. B. the
, a
, an
und mehr. Diese Wörter werden entfernt, um Platz in der Datenbank und Verarbeitungszeit zu sparen. Der Satz There is a snake in my boot
ohne Stoppwörter wird nur snake boot
sein.
In diesem Tutorial besprechen wir, wie man Stoppwörter in Python entfernt.
Verwenden Sie das Paket NLTK
, um Stoppwörter in Python zu entfernen
Das Paket nlkt
(Natural Language Processing) kann verwendet werden, um Stoppwörter aus dem Text in Python zu entfernen. Dieses Paket enthält Stoppwörter aus vielen verschiedenen Sprachen.
Wir können eine Liste durchlaufen und prüfen, ob ein Wort ein Stoppwort ist oder nicht die Liste aus dieser Bibliothek verwenden.
Zum Beispiel,
import nltk
from nltk.corpus import stopwords
dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in stopwords.words("english")]
print(A)
Ausgabe:
['This', 'snake']
Der folgende Code zeigt eine Liste von Stoppwörtern in Python:
import nltk
from nltk.corpus import stopwords
print(stopwords.words("english"))
Ausgabe:
{'ourselves', 'hers', 'between', 'yourself', 'but', 'again', 'there', 'about', 'once', 'during', 'out', 'very', 'having', 'with', 'they', 'own', 'an', 'be', 'some', 'for', 'do', 'its', 'yours', 'such', 'into', 'of', 'most', 'itself', 'other', 'off', 'is', 's', 'am', 'or', 'who', 'as', 'from', 'him', 'each', 'the', 'themselves', 'until', 'below', 'are', 'we', 'these', 'your', 'his', 'through', 'don', 'nor', 'me', 'were', 'her', 'more', 'himself', 'this', 'down', 'should', 'our', 'their', 'while', 'above', 'both', 'up', 'to', 'ours', 'had', 'she', 'all', 'no', 'when', 'at', 'any', 'before', 'them', 'same', 'and', 'been', 'have', 'in', 'will', 'on', 'does', 'yourselves', 'then', 'that', 'because', 'what', 'over', 'why', 'so', 'can', 'did', 'not', 'now', 'under', 'he', 'you', 'herself', 'has', 'just', 'where', 'too', 'only', 'myself', 'which', 'those', 'i', 'after', 'few', 'whom', 't', 'being', 'if', 'theirs', 'my', 'against', 'a', 'by', 'doing', 'it', 'how', 'further', 'was', 'here', 'than'}
Verwenden Sie das Paket stop-words
, um Stoppwörter in Python zu entfernen
Das Paket stop-words
wird verwendet, um Stoppwörter aus dem Text in Python zu entfernen. Dieses Paket enthält Stoppwörter aus vielen Sprachen wie Englisch, Dänisch, Französisch, Spanisch und mehr.
Zum Beispiel,
from stop_words import get_stop_words
dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in get_stop_words("english")]
print(A)
Ausgabe:
['This', 'just', 'snake']
Der obige Code filtert den Datensatz, indem alle in der englischen Sprache verwendeten Stoppwörter entfernt werden.
Verwenden Sie die Methode remove_stpwrds
in der Bibliothek textcleaner
, um Stoppwörter in Python zu entfernen
Die Methode remove_stpwrds()
der Bibliothek textcleaner
wird verwendet, um Stoppwörter aus dem Text in Python zu entfernen.
Zum Beispiel,
import textcleaner as tc
dataset = ["This", "is", "just", "a", "snake"]
data = tc.document(dataset)
print(data.remove_stpwrds())
Ausgabe:
This
snake