Python에서 PDF를 텍스트로 변환

Oluwafisayo Oluwatayo 2023년6월21일
  1. PyPDF2를 사용하여 Python에서 PDF를 텍스트로 변환
  2. Aspose를 사용하여 Python에서 PDF를 텍스트로 변환
  3. PDFminer를 사용하여 Python에서 PDF를 텍스트로 변환
  4. 결론
Python에서 PDF를 텍스트로 변환

Python 프레임워크는 애플리케이션 구축만을 위한 것이 아닙니다. Python을 사용하여 PDF 문서를 .txt 파일로 변환할 수 있습니다.

PDF 파일을 텍스트로 변환하면 페이지의 내용을 편집할 수 있게 됩니다. 이는 PDF 파일에서는 불가능한 일입니다. PDF를 텍스트로 변환하기 위해 사용할 수 있는 다양한 라이브러리가 있습니다. 몇 가지를 시도해 보겠습니다.

PyPDF2를 사용하여 Python에서 PDF를 텍스트로 변환

우리가 작업할 첫 번째 방법은 PyPDF2 라이브러리입니다. 터미널 내 pip install PyPDF2를 사용하여 설치합니다.

완료되면 새 파일을 만들고 이름을 new.py로 지정합니다. 다음으로 파일로 이동하여 이러한 코드를 입력합니다.

코드 스니펫 - new.py:

import PyPDF2

pdfFileObj = open(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf", "rb")

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)

print(pageObj.extractText())

pdfFileObj.close()

이 코드를 실행한 후 잠시 기다려 주십시오. 터미널 내부에 일반 텍스트가 표시되면 복사하여 Word 문서 또는 메모장에 붙여넣을 수 있습니다.

출력:

PyPDF2를 사용하여 PDF를 텍스트로 변환

Aspose를 사용하여 Python에서 PDF를 텍스트로 변환

Python용 Aspose PDF-텍스트 변환기는 PyPDF2보다 짧은 코드 스니펫을 제공하지만 그만큼 효율적입니다. 또한 Aspose는 터미널 내부에 텍스트 내용을 생성하는 첫 번째 예제와 달리 .txt 파일에 텍스트를 생성합니다.

pip install aspose-words를 사용하여 터미널에서 Aspose를 설치합니다. 설치 후 코드를 보관할 새 파일을 만든 다음 이 스니펫을 넣습니다.

코드 스니펫 - new.py:

import aspose.words as aw

doc = aw.Document(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
doc.save(r"C:\Users\HP\Desktop\BOOKS\text\doc.txt")

Aspose를 가져온 후 텍스트로 변환하려는 파일의 경로를 선언합니다. 그런 다음 doc.save 내부에 .txt 파일의 대상 경로를 선언합니다.

출력:

Aspose를 사용하여 PDF를 텍스트로 변환하기

PDFminer를 사용하여 Python에서 PDF를 텍스트로 변환

마지막으로 PDFminer를 사용하여 PDF에서 텍스트를 추출합니다. 우리는 PDFminer가 PyPDF보다 더 많은 텍스트를 추출하고 더 적은 코드를 필요로 한다는 것을 관찰할 것입니다.

터미널 내부에 pip install pdfminer.six를 입력하여 PDFminer를 설치합니다. 설치 후 새 Python 파일을 만들고 이름을 new.py 또는 원하는 이름으로 지정하고 이 코드를 입력합니다.

from pdfminer.high_level import extract_text

text = extract_text(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
print(repr(text))

잠시 후 터미널 내부에 텍스트가 표시됩니다. 그런 다음 거기에서 문서로 복사할 수 있습니다.

출력:

PDFminer를 사용하여 PDF를 텍스트로 변환

결론

우리 대부분은 일반적으로 PDF 파일을 텍스트로 변환하기 위해 온라인에 접속하는 것을 좋아하지만 Python으로 이 작업을 수행할 수 있다는 사실을 발견하면 온라인에 접속하는 스트레스를 덜 수 있고 웹에서 민감한 데이터가 유출될 위험을 처리하는 데 도움이 됩니다.

Oluwafisayo Oluwatayo avatar Oluwafisayo Oluwatayo avatar

Fisayo is a tech expert and enthusiast who loves to solve problems, seek new challenges and aim to spread the knowledge of what she has learned across the globe.

LinkedIn

관련 문장 - Python File