Python의 Pdfminer 패키지
PDF 파일은 표준 휴대용 문서이며 가장 많이 사용되는 문서 형식 중 하나입니다.
우리는 파이썬에서 다양한 유형의 파일을 읽고 읽을 수 있습니다. PDF 파일 작업에 사용할 수 있는 여러 패키지가 있습니다.
pdfminer
는 그러한 패키지 중 하나입니다. PDF 파일로 작업하고 이러한 파일에서 텍스트 데이터를 읽는 다양한 기능이 있습니다.
아래에서 이 패키지의 몇 가지 기본 사항에 대해 설명합니다.
Python에 pdfminer
패키지 설치
pdfminer
패키지는 최신 버전의 Python 3을 지원하지 않습니다. Python 3용 pdfminer.six
라는 패키지의 포크를 사용할 수 있습니다.
명령 프롬프트에서 다음 pip
명령을 사용하여 설치할 수 있습니다.
pip install pdfminer.six
Python에서 pdfminer
패키지 사용
extract_text()
함수를 사용하여 장치에 저장된 PDF에서 텍스트를 추출할 수 있고 extract_text()
함수를 사용할 수 있습니다. 함수 내에서 파일의 경로를 지정할 수 있습니다.
다음 예를 참조하십시오.
from pdfminer.high_level import extract_text
s = extract_text("sample.pdf")
print(s)
출력:
Sample PDF from device
우리는 같은 기능을 다른 방식으로 사용할 수 있습니다.
open()
함수를 사용하여 PDF 파일을 열고 파일 객체를 생성하고 이 파일 객체를 사용하여 데이터를 읽을 수 있습니다. 이를 위해 rb
모드에서 파일을 열어야 합니다.
예를 들어,
from pdfminer.high_level import extract_text
with open("sample.pdf", "rb") as f:
s = extract_text(f)
print(s)
출력:
Sample PDF from device
이 기능을 사용하여 웹에서 파일을 읽고 내용을 추출할 수 있습니다.
먼저 requests.get()
함수에서 주어진 URL을 사용하여 파일을 읽습니다. 그 내용은 content()
함수를 사용하여 검색할 수 있습니다.
그런 다음 io.BytesIO()
기능을 사용하여 이 파일을 메모리에 로드하고 extract_pdf()
기능을 사용하여 텍스트를 추출합니다.
아래 구문을 확인하십시오.
import io
import requests
r = requests.get(url)
s = extract_text(io.BytesIO(response.content))
print(s)
pdfminer
패키지는 Python 2.7까지 널리 사용되었지만 Python 3과의 호환성 문제로 인해 인기를 잃었습니다.
그러나 Python에서 PDF 파일로 작업하는 더 빠른 방법을 제공하는 새로운 패키지가 등장했습니다. pyPDF2
는 그러한 대안 중 하나입니다.
Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.
LinkedIn