Python의 Pdfminer 패키지

Manav Narula 2023년10월10일
Python의 Pdfminer 패키지

PDF 파일은 표준 휴대용 문서이며 가장 많이 사용되는 문서 형식 중 하나입니다.

우리는 파이썬에서 다양한 유형의 파일을 읽고 읽을 수 있습니다. PDF 파일 작업에 사용할 수 있는 여러 패키지가 있습니다.

pdfminer는 그러한 패키지 중 하나입니다. PDF 파일로 작업하고 이러한 파일에서 텍스트 데이터를 읽는 다양한 기능이 있습니다.

아래에서 이 패키지의 몇 가지 기본 사항에 대해 설명합니다.

Python에 pdfminer 패키지 설치

pdfminer 패키지는 최신 버전의 Python 3을 지원하지 않습니다. Python 3용 pdfminer.six라는 패키지의 포크를 사용할 수 있습니다.

명령 프롬프트에서 다음 pip 명령을 사용하여 설치할 수 있습니다.

pip install pdfminer.six

Python에서 pdfminer 패키지 사용

extract_text() 함수를 사용하여 장치에 저장된 PDF에서 텍스트를 추출할 수 있고 extract_text() 함수를 사용할 수 있습니다. 함수 내에서 파일의 경로를 지정할 수 있습니다.

다음 예를 참조하십시오.

from pdfminer.high_level import extract_text

s = extract_text("sample.pdf")
print(s)

출력:

Sample PDF from device

우리는 같은 기능을 다른 방식으로 사용할 수 있습니다.

open() 함수를 사용하여 PDF 파일을 열고 파일 객체를 생성하고 이 파일 객체를 사용하여 데이터를 읽을 수 있습니다. 이를 위해 rb 모드에서 파일을 열어야 합니다.

예를 들어,

from pdfminer.high_level import extract_text

with open("sample.pdf", "rb") as f:
    s = extract_text(f)
print(s)

출력:

Sample PDF from device

이 기능을 사용하여 웹에서 파일을 읽고 내용을 추출할 수 있습니다.

먼저 requests.get() 함수에서 주어진 URL을 사용하여 파일을 읽습니다. 그 내용은 content() 함수를 사용하여 검색할 수 있습니다.

그런 다음 io.BytesIO() 기능을 사용하여 이 파일을 메모리에 로드하고 extract_pdf() 기능을 사용하여 텍스트를 추출합니다.

아래 구문을 확인하십시오.

import io
import requests

r = requests.get(url)
s = extract_text(io.BytesIO(response.content))
print(s)

pdfminer 패키지는 Python 2.7까지 널리 사용되었지만 Python 3과의 호환성 문제로 인해 인기를 잃었습니다.

그러나 Python에서 PDF 파일로 작업하는 더 빠른 방법을 제공하는 새로운 패키지가 등장했습니다. pyPDF2는 그러한 대안 중 하나입니다.

작가: Manav Narula
Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn

관련 문장 - Python PDF