Paquete Pdfminer en Python
Un archivo PDF es un documento portátil estándar y es uno de los formatos de documentos más utilizados.
Podemos trabajar y leer diferentes tipos de archivos en Python. Hay varios paquetes disponibles para trabajar con archivos PDF.
El pdfminer
es uno de esos paquetes. Tiene diferentes funcionalidades para trabajar con archivos PDF y leer datos de texto de dichos archivos.
Discutiremos algunos conceptos básicos de este paquete a continuación.
Instalación del paquete pdfminer
en Python
El paquete pdfminer
no es compatible con Python 3 de versiones recientes. Podemos usar la bifurcación de este paquete llamada pdfminer.six
para Python 3.
Podemos instalar esto usando el siguiente comando pip
desde el símbolo del sistema.
pip install pdfminer.six
Usando el paquete pdfminer
en Python
Podemos usar la función extract_text()
para extraer texto de un PDF guardado en el dispositivo, podemos usar la función extract_text()
. Podemos especificar la ruta del archivo dentro de la función.
Vea el siguiente ejemplo.
from pdfminer.high_level import extract_text
s = extract_text("sample.pdf")
print(s)
Producción :
Sample PDF from device
Podemos usar la misma función de diferentes maneras.
Podemos abrir un archivo PDF usando la función open()
, crear un objeto de archivo y usar este objeto de archivo para leer los datos. Para esto, necesitamos abrir el archivo en el modo rb
.
Por ejemplo,
from pdfminer.high_level import extract_text
with open("sample.pdf", "rb") as f:
s = extract_text(f)
print(s)
Producción :
Sample PDF from device
Podemos leer un archivo de la web y extraer su contenido usando esta función.
Primero, leeremos el archivo usando la URL dada en la función requests.get()
. Su contenido se puede recuperar utilizando la función contenido()
.
Luego cargaremos este archivo en la memoria usando la función io.BytesIO()
y extraeremos su texto usando la función extract_pdf()
.
Compruebe la sintaxis a continuación.
import io
import requests
r = requests.get(url)
s = extract_text(io.BytesIO(response.content))
print(s)
El paquete pdfminer
fue ampliamente utilizado hasta Python 2.7 pero luego perdió popularidad debido a problemas de compatibilidad con Python 3.
Sin embargo, han surgido nuevos paquetes que brindan una forma más rápida de trabajar con archivos PDF en Python. El pyPDF2
es una de esas alternativas disponibles.
Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.
LinkedIn