Leggi PDF in Python
-
Usa il modulo
PyPDF2
per leggere un PDF in Python -
Usa il modulo
PDFplumber
per leggere un PDF in Python -
Usa il modulo
textract
per leggere un PDF in Python -
Usa il modulo
PDFminer.six
per leggere un PDF in Python
Un documento PDF non può essere modificato ma può essere condiviso in modo semplice e affidabile. Ci possono essere diversi elementi in un documento PDF come testo, collegamenti, immagini, tabelle, moduli e altro.
In questo tutorial leggeremo un file PDF in Python.
Usa il modulo PyPDF2
per leggere un PDF in Python
PyPDF2
è un modulo Python che possiamo utilizzare per estrarre le informazioni di un documento PDF, unire documenti, dividere un documento, ritagliare pagine, crittografare o decrittografare un file PDF e altro ancora.
Apriamo il documento PDF in modalità binaria di lettura utilizzando open('document_path.PDF', 'rb')
. PDFFileReader()
viene utilizzato per creare un oggetto lettore PDF per leggere il documento. Possiamo estrarre il testo dalle pagine del documento PDF utilizzando i metodi getPage()
e extractText()
. Per ottenere il numero di pagine nel documento PDF dato, usiamo .numPages
.
Per esempio,
from PyPDF2 import PDFFileReader
temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
Il codice sopra stamperà il testo sulla prima pagina del documento PDF fornito.
Usa il modulo PDFplumber
per leggere un PDF in Python
PDFplumber
è un modulo Python che possiamo usare per leggere ed estrarre testo da un documento PDF e altre cose. Il modulo PDFplumber
è più potente rispetto al modulo PyPDF2
. Qui usiamo anche la funzione open()
per leggere un file PDF.
Per esempio,
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
Il codice sopra stamperà il testo dalla prima pagina del documento PDF fornito.
Usa il modulo textract
per leggere un PDF in Python
Possiamo usare la funzione textract.process()
del modulo textract
per leggere un documento PDF.
Per esempio,
import textract
PDF_read = textract.process("document_path.PDF", method="PDFminer")
Usa il modulo PDFminer.six
per leggere un PDF in Python
PDFminer.six
è un modulo Python che possiamo usare per leggere ed estrarre testo da un documento PDF. Useremo la funzione extract_text()
di questo modulo per leggere il testo da un PDF.
Per esempio,
from PDFminer.high_level import extract_text
PDF_read = extract_text("document_path.PDF")