Leia PDF em Python
-
Use o módulo
PyPDF2
para ler um PDF em Python -
Use o módulo
PDFplumber
para ler um PDF em Python -
Use o módulo
textract
para ler um PDF em Python -
Use o módulo
PDFminer.six
para ler um PDF em Python
Um documento PDF não pode ser modificado, mas pode ser compartilhado de forma fácil e confiável. Pode haver diferentes elementos em um documento PDF, como texto, links, imagens, tabelas, formulários e muito mais.
Neste tutorial, leremos um arquivo PDF em Python.
Use o módulo PyPDF2
para ler um PDF em Python
PyPDF2
é um módulo Python que podemos usar para extrair as informações de um documento PDF, mesclar documentos, dividir um documento, cortar páginas, criptografar ou descriptografar um arquivo PDF e muito mais.
Abrimos o documento PDF em modo binário de leitura usando open('document_path.PDF', 'rb')
. PDFFileReader()
é usado para criar um objeto leitor de PDF para ler o documento. Podemos extrair texto das páginas do documento PDF usando os métodos getPage()
e extractText()
. Para obter o número de páginas de um determinado documento PDF, usamos .numPages
.
Por exemplo,
from PyPDF2 import PDFFileReader
temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
O código acima imprimirá o texto na primeira página do documento PDF fornecido.
Use o módulo PDFplumber
para ler um PDF em Python
PDFplumber
é um módulo Python que podemos usar para ler e extrair texto de um documento PDF e outras coisas. O módulo PDFplumber
é mais potente em comparação com o módulo PyPDF2
. Aqui também usamos a função open()
para ler um arquivo PDF.
Por exemplo,
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
O código acima imprimirá o texto da primeira página do documento PDF fornecido.
Use o módulo textract
para ler um PDF em Python
Podemos usar a função textract.process()
do módulo textract
para ler um documento PDF.
Por exemplo,
import textract
PDF_read = textract.process("document_path.PDF", method="PDFminer")
Use o módulo PDFminer.six
para ler um PDF em Python
PDFminer.six
é um módulo Python que podemos usar para ler e extrair texto de um documento PDF. Usaremos a função extract_text()
deste módulo para ler o texto de um PDF.
Por exemplo,
from PDFminer.high_level import extract_text
PDF_read = extract_text("document_path.PDF")