Paquet Pdfminer en Python
Un fichier PDF est un document portable standard et est l’un des formats de document les plus utilisés.
Nous pouvons travailler et lire différents types de fichiers en Python. Il existe plusieurs packages disponibles pour travailler avec des fichiers PDF.
Le pdfminer
est l’un de ces packages. Il a différentes fonctionnalités pour travailler avec des fichiers PDF et lire des données textuelles à partir de ces fichiers.
Nous aborderons ci-dessous quelques principes de base de ce package.
Installer le paquetage pdfminer
en Python
Le package pdfminer
ne supporte pas Python 3 à partir des versions récentes. Nous pouvons utiliser le fork de ce package appelé pdfminer.six
pour Python 3.
Nous pouvons l’installer en utilisant la commande pip
suivante à partir de l’invite de commande.
pip install pdfminer.six
Utilisation du package pdfminer
en Python
Nous pouvons utiliser la fonction extract_text()
pour extraire le texte d’un PDF enregistré sur l’appareil, nous pouvons utiliser la fonction extract_text()
. Nous pouvons spécifier le chemin du fichier dans la fonction.
Voir l’exemple suivant.
from pdfminer.high_level import extract_text
s = extract_text("sample.pdf")
print(s)
Production :
Sample PDF from device
Nous pouvons utiliser la même fonction de différentes manières.
Nous pouvons ouvrir un fichier PDF à l’aide de la fonction open()
, créer un objet fichier et utiliser cet objet fichier pour lire les données. Pour cela, nous devons ouvrir le fichier en mode rb
.
Par example,
from pdfminer.high_level import extract_text
with open("sample.pdf", "rb") as f:
s = extract_text(f)
print(s)
Production :
Sample PDF from device
Nous pouvons lire un fichier sur le Web et extraire son contenu à l’aide de cette fonction.
Tout d’abord, nous allons lire le fichier en utilisant l’URL donnée dans la fonction requests.get()
. Son contenu peut être récupéré à l’aide de la fonction content()
.
Nous allons ensuite charger ce fichier en mémoire à l’aide de la fonction io.BytesIO()
, et extraire son texte à l’aide de la fonction extract_pdf()
.
Vérifiez la syntaxe ci-dessous.
import io
import requests
r = requests.get(url)
s = extract_text(io.BytesIO(response.content))
print(s)
Le paquet pdfminer
a été largement utilisé jusqu’à Python 2.7, mais a ensuite perdu de sa popularité en raison de problèmes de compatibilité avec Python 3.
Cependant, de nouveaux packages sont apparus qui offrent un moyen plus rapide de travailler avec des fichiers PDF en Python. Le pyPDF2
est l’une de ces alternatives disponibles.
Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.
LinkedIn