Lire le PDF en Python
-
Utilisez le module
PyPDF2
pour lire un PDF en Python -
Utilisez le module
PDFplumber
pour lire un PDF en Python -
Utiliser le module
textract
pour lire un PDF en Python -
Utilisez le module
PDFminer.six
pour lire un PDF en Python
Un document PDF ne peut pas être modifié mais peut être partagé facilement et de manière fiable. Il peut y avoir différents éléments dans un document PDF comme du texte, des liens, des images, des tableaux, des formulaires, etc.
Dans ce tutoriel, nous allons lire un fichier PDF en Python.
Utilisez le module PyPDF2
pour lire un PDF en Python
PyPDF2
est un module Python que nous pouvons utiliser pour extraire les informations d’un document PDF, fusionner des documents, diviser un document, recadrer des pages, crypter ou décrypter un fichier PDF, etc.
Nous ouvrons le document PDF en mode lecture binaire en utilisant open('document_path.PDF', 'rb')
. PDFFileReader()
est utilisé pour créer un objet lecteur PDF pour lire le document. Nous pouvons extraire du texte des pages du document PDF en utilisant les méthodes getPage()
et extractText()
. Pour obtenir le nombre de pages dans le document PDF donné, nous utilisons .numPages
.
Par example,
from PyPDF2 import PDFFileReader
temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
Le code ci-dessus imprimera le texte sur la première page du document PDF fourni.
Utilisez le module PDFplumber
pour lire un PDF en Python
PDFplumber
est un module Python que nous pouvons utiliser pour lire et extraire du texte d’un document PDF et d’autres choses. Le module PDFplumber
est plus puissant que le module PyPDF2
. Ici, nous utilisons également la fonction open()
pour lire un fichier PDF.
Par example,
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
Le code ci-dessus imprimera le texte de la première page du document PDF fourni.
Utiliser le module textract
pour lire un PDF en Python
On peut utiliser la fonction textract.process()
du module textract
pour lire un document PDF.
Par example,
import textract
PDF_read = textract.process("document_path.PDF", method="PDFminer")
Utilisez le module PDFminer.six
pour lire un PDF en Python
PDFminer.six
est un module Python que nous pouvons utiliser pour lire et extraire du texte d’un document PDF. Nous utiliserons la fonction extract_text()
de ce module pour lire le texte d’un PDF.
Par example,
from PDFminer.high_level import extract_text
PDF_read = extract_text("document_path.PDF")