Supprimer les mots vides en Python
-
Utilisez le package
NLTK
pour supprimer les mots vides en Python -
Utilisez le package
stop_words
pour supprimer les mots vides en Python -
Utilisez la méthode
remove_stpwrds
dans la bibliothèquetextcleaner
pour supprimer les mots vides en Python
Les mots vides sont les mots couramment utilisés qui sont généralement ignorés par le moteur de recherche, tels que the
, a
, an
, etc. Ces mots sont supprimés pour économiser de l’espace dans la base de données et le temps de traitement. La phrase There is a snake in my boot
sans mots vides sera simplement snake boot
.
Dans ce tutoriel, nous verrons comment supprimer les mots vides en Python.
Utilisez le package NLTK
pour supprimer les mots vides en Python
Le package nlkt
(Natural Language Processing) peut être utilisé pour supprimer les mots vides du texte en Python. Ce paquet contient des mots vides de plusieurs langues différentes.
Nous pouvons parcourir une liste et vérifier si un mot est un mot vide ou n’utilise pas la liste de cette bibliothèque.
Par exemple,
import nltk
from nltk.corpus import stopwords
dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in stopwords.words("english")]
print(A)
Production:
['This', 'snake']
Le code suivant affichera une liste de mots vides en Python :
import nltk
from nltk.corpus import stopwords
print(stopwords.words("english"))
Production:
{'ourselves', 'hers', 'between', 'yourself', 'but', 'again', 'there', 'about', 'once', 'during', 'out', 'very', 'having', 'with', 'they', 'own', 'an', 'be', 'some', 'for', 'do', 'its', 'yours', 'such', 'into', 'of', 'most', 'itself', 'other', 'off', 'is', 's', 'am', 'or', 'who', 'as', 'from', 'him', 'each', 'the', 'themselves', 'until', 'below', 'are', 'we', 'these', 'your', 'his', 'through', 'don', 'nor', 'me', 'were', 'her', 'more', 'himself', 'this', 'down', 'should', 'our', 'their', 'while', 'above', 'both', 'up', 'to', 'ours', 'had', 'she', 'all', 'no', 'when', 'at', 'any', 'before', 'them', 'same', 'and', 'been', 'have', 'in', 'will', 'on', 'does', 'yourselves', 'then', 'that', 'because', 'what', 'over', 'why', 'so', 'can', 'did', 'not', 'now', 'under', 'he', 'you', 'herself', 'has', 'just', 'where', 'too', 'only', 'myself', 'which', 'those', 'i', 'after', 'few', 'whom', 't', 'being', 'if', 'theirs', 'my', 'against', 'a', 'by', 'doing', 'it', 'how', 'further', 'was', 'here', 'than'}
Utilisez le package stop_words
pour supprimer les mots vides en Python
Le package stop-words
est utilisé pour supprimer les mots vides du texte en Python. Ce paquet contient des mots vides dans de nombreuses langues comme l’anglais, le danois, le français, l’espagnol et plus encore.
Par exemple,
from stop_words import get_stop_words
dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in get_stop_words("english")]
print(A)
Production:
['This', 'just', 'snake']
Le code ci-dessus filtrera l’ensemble de données en supprimant tous les mots vides utilisés dans la langue anglaise.
Utilisez la méthode remove_stpwrds
dans la bibliothèque textcleaner
pour supprimer les mots vides en Python
La méthode remove_stpwrds()
de la bibliothèque textcleaner
est utilisée pour supprimer les mots vides du texte en Python.
Par exemple,
import textcleaner as tc
dataset = ["This", "is", "just", "a", "snake"]
data = tc.document(dataset)
print(data.remove_stpwrds())
Production:
This
snake