Leer PDF en Python
-
Utilice el módulo
PyPDF2
para leer un PDF en Python -
Utilice el módulo
PDFplumber
para leer un PDF en Python -
Utilice el módulo
textract
para leer un PDF en Python -
Utilice el módulo
PDFminer.six
para leer un PDF en Python
Un documento PDF no se puede modificar, pero se puede compartir de forma sencilla y fiable. Puede haber diferentes elementos en un documento PDF como texto, enlaces, imágenes, tablas, formularios y más.
En este tutorial, leeremos un archivo PDF en Python.
Utilice el módulo PyPDF2
para leer un PDF en Python
PyPDF2
es un módulo de Python que podemos usar para extraer la información de un documento PDF, fusionar documentos, dividir un documento, recortar páginas, cifrar o descifrar un archivo PDF, y más.
Abrimos el documento PDF en modo lectura binario usando open('document_path.PDF', 'rb')
. PDFFileReader()
se utiliza para crear un objeto lector de PDF para leer el documento. Podemos extraer texto de las páginas del documento PDF usando los métodos getPage()
y extractText()
. Para obtener el número de páginas en el documento PDF dado, usamos .numPages
.
Por ejemplo,
from PyPDF2 import PDFFileReader
temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
El código anterior imprimirá el texto en la primera página del documento PDF proporcionado.
Utilice el módulo PDFplumber
para leer un PDF en Python
PDFplumber
es un módulo de Python que podemos usar para leer y extraer texto de un documento PDF y otras cosas. El módulo PDFplumber
es más potente en comparación con el módulo PyPDF2
. Aquí también usamos la función open()
para leer un archivo PDF.
Por ejemplo,
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
El código anterior imprimirá el texto de la primera página del documento PDF proporcionado.
Utilice el módulo textract
para leer un PDF en Python
Podemos usar la función textract.process()
del módulo textract
para leer un documento PDF.
Por ejemplo,
import textract
PDF_read = textract.process("document_path.PDF", method="PDFminer")
Utilice el módulo PDFminer.six
para leer un PDF en Python
PDFminer.six
es un módulo de Python que podemos usar para leer y extraer texto de un documento PDF. Usaremos la función extract_text()
de este módulo para leer el texto de un PDF.
Por ejemplo,
from PDFminer.high_level import extract_text
PDF_read = extract_text("document_path.PDF")