Leggi PDF in Python

Samyak Jain 30 gennaio 2023
  1. Usa il modulo PyPDF2 per leggere un PDF in Python
  2. Usa il modulo PDFplumber per leggere un PDF in Python
  3. Usa il modulo textract per leggere un PDF in Python
  4. Usa il modulo PDFminer.six per leggere un PDF in Python
Leggi PDF in Python

Un documento PDF non può essere modificato ma può essere condiviso in modo semplice e affidabile. Ci possono essere diversi elementi in un documento PDF come testo, collegamenti, immagini, tabelle, moduli e altro.

In questo tutorial leggeremo un file PDF in Python.

Usa il modulo PyPDF2 per leggere un PDF in Python

PyPDF2 è un modulo Python che possiamo utilizzare per estrarre le informazioni di un documento PDF, unire documenti, dividere un documento, ritagliare pagine, crittografare o decrittografare un file PDF e altro ancora.

Apriamo il documento PDF in modalità binaria di lettura utilizzando open('document_path.PDF', 'rb'). PDFFileReader() viene utilizzato per creare un oggetto lettore PDF per leggere il documento. Possiamo estrarre il testo dalle pagine del documento PDF utilizzando i metodi getPage() e extractText(). Per ottenere il numero di pagine nel documento PDF dato, usiamo .numPages.

Per esempio,

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

Il codice sopra stamperà il testo sulla prima pagina del documento PDF fornito.

Usa il modulo PDFplumber per leggere un PDF in Python

PDFplumber è un modulo Python che possiamo usare per leggere ed estrarre testo da un documento PDF e altre cose. Il modulo PDFplumber è più potente rispetto al modulo PyPDF2. Qui usiamo anche la funzione open() per leggere un file PDF.

Per esempio,

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

Il codice sopra stamperà il testo dalla prima pagina del documento PDF fornito.

Usa il modulo textract per leggere un PDF in Python

Possiamo usare la funzione textract.process() del modulo textract per leggere un documento PDF.

Per esempio,

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

Usa il modulo PDFminer.six per leggere un PDF in Python

PDFminer.six è un modulo Python che possiamo usare per leggere ed estrarre testo da un documento PDF. Useremo la funzione extract_text() di questo modulo per leggere il testo da un PDF.

Per esempio,

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

Articolo correlato - Python PDF