PDF in Python lesen

Samyak Jain 30 Januar 2023
  1. Verwenden Sie das Modul PyPDF2, um ein PDF in Python zu lesen
  2. Verwenden Sie das Modul PDFplumber, um ein PDF in Python zu lesen
  3. Verwenden Sie das Modul textract, um ein PDF in Python zu lesen
  4. Verwenden Sie das Modul PDFminer.six, um ein PDF in Python zu lesen
PDF in Python lesen

Ein PDF-Dokument kann nicht geändert, aber einfach und zuverlässig geteilt werden. Ein PDF-Dokument kann verschiedene Elemente wie Text, Links, Bilder, Tabellen, Formulare und mehr enthalten.

In diesem Tutorial werden wir eine PDF-Datei in Python lesen.

Verwenden Sie das Modul PyPDF2, um ein PDF in Python zu lesen

PyPDF2 ist ein Python-Modul, mit dem wir die Informationen eines PDF-Dokuments extrahieren, Dokumente zusammenführen, ein Dokument teilen, Seiten beschneiden, eine PDF-Datei verschlüsseln oder entschlüsseln und mehr.

Wir öffnen das PDF-Dokument im gelesenen Binärmodus mit open('document_path.PDF', 'rb'). PDFFileReader() wird verwendet, um ein PDF-Reader-Objekt zum Lesen des Dokuments zu erstellen. Mit den Methoden getPage() und extractText() können wir Text aus den Seiten des PDF-Dokuments extrahieren. Um die Anzahl der Seiten im angegebenen PDF-Dokument zu erhalten, verwenden wir .numPages.

Beispielsweise,

from PyPDF2 import PDFFileReader

temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

Der obige Code druckt den Text auf der ersten Seite des bereitgestellten PDF-Dokuments.

Verwenden Sie das Modul PDFplumber, um ein PDF in Python zu lesen

PDFplumber ist ein Python-Modul, mit dem wir Text aus einem PDF-Dokument und andere Dinge lesen und extrahieren können. Das Modul PDFplumber ist leistungsfähiger als das Modul PyPDF2. Auch hier verwenden wir die Funktion open(), um eine PDF-Datei zu lesen.

Beispielsweise,

import PDFplumber

with PDFplumber.open("document_path.PDF") as temp:
    first_page = temp.pages[0]
    print(first_page.extract_text())

Der obige Code druckt den Text von der ersten Seite des bereitgestellten PDF-Dokuments.

Verwenden Sie das Modul textract, um ein PDF in Python zu lesen

Wir können die Funktion textract.process() aus dem Modul textract verwenden, um ein PDF-Dokument zu lesen.

Beispielsweise,

import textract

PDF_read = textract.process("document_path.PDF", method="PDFminer")

Verwenden Sie das Modul PDFminer.six, um ein PDF in Python zu lesen

PDFminer.six ist ein Python-Modul, mit dem wir Text aus einem PDF-Dokument lesen und extrahieren können. Wir verwenden die Funktion extract_text() aus diesem Modul, um den Text aus einem PDF zu lesen.

Beispielsweise,

from PDFminer.high_level import extract_text

PDF_read = extract_text("document_path.PDF")

Verwandter Artikel - Python PDF