Supprimer les mots vides en Python

Samyak Jain 10 octobre 2023
  1. Utilisez le package NLTK pour supprimer les mots vides en Python
  2. Utilisez le package stop_words pour supprimer les mots vides en Python
  3. Utilisez la méthode remove_stpwrds dans la bibliothèque textcleaner pour supprimer les mots vides en Python
Supprimer les mots vides en Python

Les mots vides sont les mots couramment utilisés qui sont généralement ignorés par le moteur de recherche, tels que the, a, an, etc. Ces mots sont supprimés pour économiser de l’espace dans la base de données et le temps de traitement. La phrase There is a snake in my boot sans mots vides sera simplement snake boot.

Dans ce tutoriel, nous verrons comment supprimer les mots vides en Python.

Utilisez le package NLTK pour supprimer les mots vides en Python

Le package nlkt (Natural Language Processing) peut être utilisé pour supprimer les mots vides du texte en Python. Ce paquet contient des mots vides de plusieurs langues différentes.

Nous pouvons parcourir une liste et vérifier si un mot est un mot vide ou n’utilise pas la liste de cette bibliothèque.

Par exemple,

import nltk
from nltk.corpus import stopwords

dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in stopwords.words("english")]
print(A)

Production:

['This', 'snake']

Le code suivant affichera une liste de mots vides en Python :

import nltk
from nltk.corpus import stopwords

print(stopwords.words("english"))

Production:

{'ourselves', 'hers', 'between', 'yourself', 'but', 'again', 'there', 'about', 'once', 'during', 'out', 'very', 'having', 'with', 'they', 'own', 'an', 'be', 'some', 'for', 'do', 'its', 'yours', 'such', 'into', 'of', 'most', 'itself', 'other', 'off', 'is', 's', 'am', 'or', 'who', 'as', 'from', 'him', 'each', 'the', 'themselves', 'until', 'below', 'are', 'we', 'these', 'your', 'his', 'through', 'don', 'nor', 'me', 'were', 'her', 'more', 'himself', 'this', 'down', 'should', 'our', 'their', 'while', 'above', 'both', 'up', 'to', 'ours', 'had', 'she', 'all', 'no', 'when', 'at', 'any', 'before', 'them', 'same', 'and', 'been', 'have', 'in', 'will', 'on', 'does', 'yourselves', 'then', 'that', 'because', 'what', 'over', 'why', 'so', 'can', 'did', 'not', 'now', 'under', 'he', 'you', 'herself', 'has', 'just', 'where', 'too', 'only', 'myself', 'which', 'those', 'i', 'after', 'few', 'whom', 't', 'being', 'if', 'theirs', 'my', 'against', 'a', 'by', 'doing', 'it', 'how', 'further', 'was', 'here', 'than'} 

Utilisez le package stop_words pour supprimer les mots vides en Python

Le package stop-words est utilisé pour supprimer les mots vides du texte en Python. Ce paquet contient des mots vides dans de nombreuses langues comme l’anglais, le danois, le français, l’espagnol et plus encore.

Par exemple,

from stop_words import get_stop_words

dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in get_stop_words("english")]
print(A)

Production:

['This', 'just', 'snake']

Le code ci-dessus filtrera l’ensemble de données en supprimant tous les mots vides utilisés dans la langue anglaise.

Utilisez la méthode remove_stpwrds dans la bibliothèque textcleaner pour supprimer les mots vides en Python

La méthode remove_stpwrds() de la bibliothèque textcleaner est utilisée pour supprimer les mots vides du texte en Python.

Par exemple,

import textcleaner as tc

dataset = ["This", "is", "just", "a", "snake"]
data = tc.document(dataset)
print(data.remove_stpwrds())

Production:

This
snake