Python에서 중지 단어 제거
Samyak Jain
2023년10월10일
-
NLTK
패키지를 사용하여 Python에서 중지 단어 제거 -
stop-words
패키지를 사용하여 Python에서 중지 단어 제거 -
textcleaner
라이브러리의remove_stpwrds
메서드를 사용하여 Python에서 중지 단어 제거
중지 단어는 the
, a
, an
등과 같이 일반적으로 검색 엔진에서 무시되는 일반적으로 사용되는 단어입니다. 이러한 단어는 데이터베이스의 공간과 처리 시간을 절약하기 위해 제거됩니다. There is a snake in my boot
라는 문장이 중단어 없이는 그냥 snake boot
가 됩니다.
이 자습서에서는 Python에서 중지 단어를 제거하는 방법에 대해 설명합니다.
NLTK
패키지를 사용하여 Python에서 중지 단어 제거
nlkt
(자연어 처리) 패키지는 Python의 텍스트에서 중지 단어를 제거하는 데 사용할 수 있습니다. 이 패키지에는 다양한 언어의 불용어가 포함되어 있습니다.
목록을 반복하고 이 라이브러리의 목록을 사용하지 않는 단어가 중지 단어인지 확인할 수 있습니다.
예를 들어,
import nltk
from nltk.corpus import stopwords
dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in stopwords.words("english")]
print(A)
출력:
['This', 'snake']
다음 코드는 Python에서 중지 단어 목록을 표시합니다.
import nltk
from nltk.corpus import stopwords
print(stopwords.words("english"))
출력:
{'ourselves', 'hers', 'between', 'yourself', 'but', 'again', 'there', 'about', 'once', 'during', 'out', 'very', 'having', 'with', 'they', 'own', 'an', 'be', 'some', 'for', 'do', 'its', 'yours', 'such', 'into', 'of', 'most', 'itself', 'other', 'off', 'is', 's', 'am', 'or', 'who', 'as', 'from', 'him', 'each', 'the', 'themselves', 'until', 'below', 'are', 'we', 'these', 'your', 'his', 'through', 'don', 'nor', 'me', 'were', 'her', 'more', 'himself', 'this', 'down', 'should', 'our', 'their', 'while', 'above', 'both', 'up', 'to', 'ours', 'had', 'she', 'all', 'no', 'when', 'at', 'any', 'before', 'them', 'same', 'and', 'been', 'have', 'in', 'will', 'on', 'does', 'yourselves', 'then', 'that', 'because', 'what', 'over', 'why', 'so', 'can', 'did', 'not', 'now', 'under', 'he', 'you', 'herself', 'has', 'just', 'where', 'too', 'only', 'myself', 'which', 'those', 'i', 'after', 'few', 'whom', 't', 'being', 'if', 'theirs', 'my', 'against', 'a', 'by', 'doing', 'it', 'how', 'further', 'was', 'here', 'than'}
stop-words
패키지를 사용하여 Python에서 중지 단어 제거
stop-words
패키지는 Python의 텍스트에서 중지 단어를 제거하는 데 사용됩니다. 이 패키지에는 영어, 덴마크어, 프랑스어, 스페인어 등과 같은 여러 언어의 불용어가 포함되어 있습니다.
예를 들어,
from stop_words import get_stop_words
dataset = ["This", "is", "just", "a", "snake"]
A = [word for word in dataset if word not in get_stop_words("english")]
print(A)
출력:
['This', 'just', 'snake']
위의 코드는 영어에서 사용되는 모든 불용어를 제거하여 데이터 세트를 필터링합니다.
textcleaner
라이브러리의 remove_stpwrds
메서드를 사용하여 Python에서 중지 단어 제거
textcleaner
라이브러리의 remove_stpwrds()
메서드는 Python의 텍스트에서 중지 단어를 제거하는 데 사용됩니다.
예를 들어,
import textcleaner as tc
dataset = ["This", "is", "just", "a", "snake"]
data = tc.document(dataset)
print(data.remove_stpwrds())
출력:
This
snake