Lire le PDF en Python

Samyak Jain 30 janvier 2023 Python Python PDF

Utilisez le module PyPDF2 pour lire un PDF en Python
Utilisez le module PDFplumber pour lire un PDF en Python
Utiliser le module textract pour lire un PDF en Python
Utilisez le module PDFminer.six pour lire un PDF en Python

Un document PDF ne peut pas être modifié mais peut être partagé facilement et de manière fiable. Il peut y avoir différents éléments dans un document PDF comme du texte, des liens, des images, des tableaux, des formulaires, etc.

Dans ce tutoriel, nous allons lire un fichier PDF en Python.

Utilisez le module `PyPDF2` pour lire un PDF en Python

PyPDF2 est un module Python que nous pouvons utiliser pour extraire les informations d’un document PDF, fusionner des documents, diviser un document, recadrer des pages, crypter ou décrypter un fichier PDF, etc.

Nous ouvrons le document PDF en mode lecture binaire en utilisant open('document_path.PDF', 'rb'). PDFFileReader() est utilisé pour créer un objet lecteur PDF pour lire le document. Nous pouvons extraire du texte des pages du document PDF en utilisant les méthodes getPage() et extractText(). Pour obtenir le nombre de pages dans le document PDF donné, nous utilisons .numPages.

Par example,

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

Le code ci-dessus imprimera le texte sur la première page du document PDF fourni.

Utilisez le module `PDFplumber` pour lire un PDF en Python

PDFplumber est un module Python que nous pouvons utiliser pour lire et extraire du texte d’un document PDF et d’autres choses. Le module PDFplumber est plus puissant que le module PyPDF2. Ici, nous utilisons également la fonction open() pour lire un fichier PDF.

Par example,

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

Le code ci-dessus imprimera le texte de la première page du document PDF fourni.

Utiliser le module `textract` pour lire un PDF en Python

On peut utiliser la fonction textract.process() du module textract pour lire un document PDF.

Par example,

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

Utilisez le module `PDFminer.six` pour lire un PDF en Python

PDFminer.six est un module Python que nous pouvons utiliser pour lire et extraire du texte d’un document PDF. Nous utiliserons la fonction extract_text() de ce module pour lire le texte d’un PDF.

Par example,

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

Vous aimez nos tutoriels ? Abonnez-vous à DelftStack sur YouTube pour nous aider à créer davantage de tutoriels vidéo de haute qualité. Abonnez-vous

Utilisez le module PyPDF2 pour lire un PDF en Python

Utilisez le module PDFplumber pour lire un PDF en Python

Utiliser le module textract pour lire un PDF en Python

Utilisez le module PDFminer.six pour lire un PDF en Python

Article connexe - Python PDF

Utilisez le module `PyPDF2` pour lire un PDF en Python

Utilisez le module `PDFplumber` pour lire un PDF en Python

Utiliser le module `textract` pour lire un PDF en Python

Utilisez le module `PDFminer.six` pour lire un PDF en Python