PDF in Python lesen
-
Verwenden Sie das Modul
PyPDF2
, um ein PDF in Python zu lesen -
Verwenden Sie das Modul
PDFplumber
, um ein PDF in Python zu lesen -
Verwenden Sie das Modul
textract
, um ein PDF in Python zu lesen -
Verwenden Sie das Modul
PDFminer.six
, um ein PDF in Python zu lesen
Ein PDF-Dokument kann nicht geändert, aber einfach und zuverlässig geteilt werden. Ein PDF-Dokument kann verschiedene Elemente wie Text, Links, Bilder, Tabellen, Formulare und mehr enthalten.
In diesem Tutorial werden wir eine PDF-Datei in Python lesen.
Verwenden Sie das Modul PyPDF2
, um ein PDF in Python zu lesen
PyPDF2
ist ein Python-Modul, mit dem wir die Informationen eines PDF-Dokuments extrahieren, Dokumente zusammenführen, ein Dokument teilen, Seiten beschneiden, eine PDF-Datei verschlüsseln oder entschlüsseln und mehr.
Wir öffnen das PDF-Dokument im gelesenen Binärmodus mit open('document_path.PDF', 'rb')
. PDFFileReader()
wird verwendet, um ein PDF-Reader-Objekt zum Lesen des Dokuments zu erstellen. Mit den Methoden getPage()
und extractText()
können wir Text aus den Seiten des PDF-Dokuments extrahieren. Um die Anzahl der Seiten im angegebenen PDF-Dokument zu erhalten, verwenden wir .numPages
.
Beispielsweise,
from PyPDF2 import PDFFileReader
temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
Der obige Code druckt den Text auf der ersten Seite des bereitgestellten PDF-Dokuments.
Verwenden Sie das Modul PDFplumber
, um ein PDF in Python zu lesen
PDFplumber
ist ein Python-Modul, mit dem wir Text aus einem PDF-Dokument und andere Dinge lesen und extrahieren können. Das Modul PDFplumber
ist leistungsfähiger als das Modul PyPDF2
. Auch hier verwenden wir die Funktion open()
, um eine PDF-Datei zu lesen.
Beispielsweise,
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
Der obige Code druckt den Text von der ersten Seite des bereitgestellten PDF-Dokuments.
Verwenden Sie das Modul textract
, um ein PDF in Python zu lesen
Wir können die Funktion textract.process()
aus dem Modul textract
verwenden, um ein PDF-Dokument zu lesen.
Beispielsweise,
import textract
PDF_read = textract.process("document_path.PDF", method="PDFminer")
Verwenden Sie das Modul PDFminer.six
, um ein PDF in Python zu lesen
PDFminer.six
ist ein Python-Modul, mit dem wir Text aus einem PDF-Dokument lesen und extrahieren können. Wir verwenden die Funktion extract_text()
aus diesem Modul, um den Text aus einem PDF zu lesen.
Beispielsweise,
from PDFminer.high_level import extract_text
PDF_read = extract_text("document_path.PDF")