Stoppwörter in Python entfernen

Samyak Jain 10 Oktober 2023
  1. Verwenden Sie das Paket NLTK, um Stoppwörter in Python zu entfernen
  2. Verwenden Sie das Paket stop-words, um Stoppwörter in Python zu entfernen
  3. Verwenden Sie die Methode remove_stpwrds in der Bibliothek textcleaner, um Stoppwörter in Python zu entfernen
Stoppwörter in Python entfernen

Stoppwörter sind die häufig verwendeten Wörter, die von der Suchmaschine im Allgemeinen ignoriert werden, wie z. B. the, a, an und mehr. Diese Wörter werden entfernt, um Platz in der Datenbank und Verarbeitungszeit zu sparen. Der Satz There is a snake in my boot ohne Stoppwörter wird nur snake boot sein.

In diesem Tutorial besprechen wir, wie man Stoppwörter in Python entfernt.

Verwenden Sie das Paket NLTK, um Stoppwörter in Python zu entfernen

Das Paket nlkt (Natural Language Processing) kann verwendet werden, um Stoppwörter aus dem Text in Python zu entfernen. Dieses Paket enthält Stoppwörter aus vielen verschiedenen Sprachen.

Wir können eine Liste durchlaufen und prüfen, ob ein Wort ein Stoppwort ist oder nicht die Liste aus dieser Bibliothek verwenden.

Zum Beispiel,

import nltk
from nltk.corpus import stopwords

dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in stopwords.words("english")]
print(A)

Ausgabe:

['This', 'snake']

Der folgende Code zeigt eine Liste von Stoppwörtern in Python:

import nltk
from nltk.corpus import stopwords

print(stopwords.words("english"))

Ausgabe:

{'ourselves', 'hers', 'between', 'yourself', 'but', 'again', 'there', 'about', 'once', 'during', 'out', 'very', 'having', 'with', 'they', 'own', 'an', 'be', 'some', 'for', 'do', 'its', 'yours', 'such', 'into', 'of', 'most', 'itself', 'other', 'off', 'is', 's', 'am', 'or', 'who', 'as', 'from', 'him', 'each', 'the', 'themselves', 'until', 'below', 'are', 'we', 'these', 'your', 'his', 'through', 'don', 'nor', 'me', 'were', 'her', 'more', 'himself', 'this', 'down', 'should', 'our', 'their', 'while', 'above', 'both', 'up', 'to', 'ours', 'had', 'she', 'all', 'no', 'when', 'at', 'any', 'before', 'them', 'same', 'and', 'been', 'have', 'in', 'will', 'on', 'does', 'yourselves', 'then', 'that', 'because', 'what', 'over', 'why', 'so', 'can', 'did', 'not', 'now', 'under', 'he', 'you', 'herself', 'has', 'just', 'where', 'too', 'only', 'myself', 'which', 'those', 'i', 'after', 'few', 'whom', 't', 'being', 'if', 'theirs', 'my', 'against', 'a', 'by', 'doing', 'it', 'how', 'further', 'was', 'here', 'than'} 

Verwenden Sie das Paket stop-words, um Stoppwörter in Python zu entfernen

Das Paket stop-words wird verwendet, um Stoppwörter aus dem Text in Python zu entfernen. Dieses Paket enthält Stoppwörter aus vielen Sprachen wie Englisch, Dänisch, Französisch, Spanisch und mehr.

Zum Beispiel,

from stop_words import get_stop_words

dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in get_stop_words("english")]
print(A)

Ausgabe:

['This', 'just', 'snake']

Der obige Code filtert den Datensatz, indem alle in der englischen Sprache verwendeten Stoppwörter entfernt werden.

Verwenden Sie die Methode remove_stpwrds in der Bibliothek textcleaner, um Stoppwörter in Python zu entfernen

Die Methode remove_stpwrds() der Bibliothek textcleaner wird verwendet, um Stoppwörter aus dem Text in Python zu entfernen.

Zum Beispiel,

import textcleaner as tc

dataset = ["This", "is", "just", "a", "snake"]
data = tc.document(dataset)
print(data.remove_stpwrds())

Ausgabe:

This
snake