Python으로 PDF 읽기
-
PyPDF2
모듈을 사용하여 Python으로 PDF 읽기 -
PDFplumber
모듈을 사용하여 Python으로 PDF 읽기 -
textract
모듈을 사용하여 Python으로 PDF 읽기 -
PDFminer.six
모듈을 사용하여 Python으로 PDF 읽기
PDF 문서는 수정할 수 없지만 쉽고 안정적으로 공유 할 수 있습니다. PDF 문서에는 텍스트, 링크, 이미지, 표, 양식 등과 같은 다양한 요소가있을 수 있습니다.
이 튜토리얼에서는 Python으로 PDF 파일을 읽습니다.
PyPDF2
모듈을 사용하여 Python으로 PDF 읽기
PyPDF2
는 PDF 문서의 정보 추출, 문서 병합, 문서 분할, 페이지 자르기, PDF 파일 암호화 또는 암호 해독 등에 사용할 수있는 Python 모듈입니다.
open('document_path.PDF', 'rb')
를 사용하여 읽기 바이너리 모드에서 PDF 문서를 엽니 다. PDFFileReader()
는 문서를 읽기위한 PDF 리더 객체를 만드는 데 사용됩니다. getPage()
및extractText()
메소드를 사용하여 PDF 문서의 페이지에서 텍스트를 추출 할 수 있습니다. 주어진 PDF 문서의 페이지 수를 얻기 위해.numPages
를 사용합니다.
예를 들면
from PyPDF2 import PDFFileReader
temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
위의 코드는 제공된 PDF 문서의 첫 페이지에 텍스트를 인쇄합니다.
PDFplumber
모듈을 사용하여 Python으로 PDF 읽기
PDFplumber
는 PDF 문서 등에서 텍스트를 읽고 추출하는 데 사용할 수있는 Python 모듈입니다. PDFplumber
모듈은PyPDF2
모듈에 비해 더 강력합니다. 여기서는open()
함수를 사용하여 PDF 파일을 읽습니다.
예를 들면
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
위 코드는 제공된 PDF 문서의 첫 페이지에서 텍스트를 인쇄합니다.
textract
모듈을 사용하여 Python으로 PDF 읽기
textract
모듈의textract.process()
함수를 사용하여 PDF 문서를 읽을 수 있습니다.
예를 들면
import textract
PDF_read = textract.process("document_path.PDF", method="PDFminer")
PDFminer.six
모듈을 사용하여 Python으로 PDF 읽기
PDFminer.six
는 PDF 문서에서 텍스트를 읽고 추출하는 데 사용할 수있는 Python 모듈입니다. 이 모듈의extract_text()
함수를 사용하여 PDF에서 텍스트를 읽습니다.
예를 들면
from PDFminer.high_level import extract_text
PDF_read = extract_text("document_path.PDF")