Lire le PDF en Python

Samyak Jain 30 janvier 2023
  1. Utilisez le module PyPDF2 pour lire un PDF en Python
  2. Utilisez le module PDFplumber pour lire un PDF en Python
  3. Utiliser le module textract pour lire un PDF en Python
  4. Utilisez le module PDFminer.six pour lire un PDF en Python
Lire le PDF en Python

Un document PDF ne peut pas être modifié mais peut être partagé facilement et de manière fiable. Il peut y avoir différents éléments dans un document PDF comme du texte, des liens, des images, des tableaux, des formulaires, etc.

Dans ce tutoriel, nous allons lire un fichier PDF en Python.

Utilisez le module PyPDF2 pour lire un PDF en Python

PyPDF2 est un module Python que nous pouvons utiliser pour extraire les informations d’un document PDF, fusionner des documents, diviser un document, recadrer des pages, crypter ou décrypter un fichier PDF, etc.

Nous ouvrons le document PDF en mode lecture binaire en utilisant open('document_path.PDF', 'rb'). PDFFileReader() est utilisé pour créer un objet lecteur PDF pour lire le document. Nous pouvons extraire du texte des pages du document PDF en utilisant les méthodes getPage() et extractText(). Pour obtenir le nombre de pages dans le document PDF donné, nous utilisons .numPages.

Par example,

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

Le code ci-dessus imprimera le texte sur la première page du document PDF fourni.

Utilisez le module PDFplumber pour lire un PDF en Python

PDFplumber est un module Python que nous pouvons utiliser pour lire et extraire du texte d’un document PDF et d’autres choses. Le module PDFplumber est plus puissant que le module PyPDF2. Ici, nous utilisons également la fonction open() pour lire un fichier PDF.

Par example,

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

Le code ci-dessus imprimera le texte de la première page du document PDF fourni.

Utiliser le module textract pour lire un PDF en Python

On peut utiliser la fonction textract.process() du module textract pour lire un document PDF.

Par example,

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

Utilisez le module PDFminer.six pour lire un PDF en Python

PDFminer.six est un module Python que nous pouvons utiliser pour lire et extraire du texte d’un document PDF. Nous utiliserons la fonction extract_text() de ce module pour lire le texte d’un PDF.

Par example,

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

Article connexe - Python PDF