Paquete Pdfminer en Python

Manav Narula 10 octubre 2023
Paquete Pdfminer en Python

Un archivo PDF es un documento portátil estándar y es uno de los formatos de documentos más utilizados.

Podemos trabajar y leer diferentes tipos de archivos en Python. Hay varios paquetes disponibles para trabajar con archivos PDF.

El pdfminer es uno de esos paquetes. Tiene diferentes funcionalidades para trabajar con archivos PDF y leer datos de texto de dichos archivos.

Discutiremos algunos conceptos básicos de este paquete a continuación.

Instalación del paquete pdfminer en Python

El paquete pdfminer no es compatible con Python 3 de versiones recientes. Podemos usar la bifurcación de este paquete llamada pdfminer.six para Python 3.

Podemos instalar esto usando el siguiente comando pip desde el símbolo del sistema.

pip install pdfminer.six

Usando el paquete pdfminer en Python

Podemos usar la función extract_text() para extraer texto de un PDF guardado en el dispositivo, podemos usar la función extract_text(). Podemos especificar la ruta del archivo dentro de la función.

Vea el siguiente ejemplo.

from pdfminer.high_level import extract_text

s = extract_text("sample.pdf")
print(s)

Producción :

Sample PDF from device

Podemos usar la misma función de diferentes maneras.

Podemos abrir un archivo PDF usando la función open(), crear un objeto de archivo y usar este objeto de archivo para leer los datos. Para esto, necesitamos abrir el archivo en el modo rb.

Por ejemplo,

from pdfminer.high_level import extract_text

with open("sample.pdf", "rb") as f:
    s = extract_text(f)
print(s)

Producción :

Sample PDF from device

Podemos leer un archivo de la web y extraer su contenido usando esta función.

Primero, leeremos el archivo usando la URL dada en la función requests.get(). Su contenido se puede recuperar utilizando la función contenido().

Luego cargaremos este archivo en la memoria usando la función io.BytesIO() y extraeremos su texto usando la función extract_pdf().

Compruebe la sintaxis a continuación.

import io
import requests

r = requests.get(url)
s = extract_text(io.BytesIO(response.content))
print(s)

El paquete pdfminer fue ampliamente utilizado hasta Python 2.7 pero luego perdió popularidad debido a problemas de compatibilidad con Python 3.

Sin embargo, han surgido nuevos paquetes que brindan una forma más rápida de trabajar con archivos PDF en Python. El pyPDF2 es una de esas alternativas disponibles.

Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn

Artículo relacionado - Python PDF