Pdfminer-Paket in Python
Eine PDF-Datei ist ein tragbares Standarddokument und eines der am häufigsten verwendeten Dokumentformate.
Wir können verschiedene Arten von Dateien in Python bearbeiten und lesen. Es sind mehrere Pakete verfügbar, um mit PDF-Dateien zu arbeiten.
Der pdfminer
ist ein solches Paket. Es verfügt über verschiedene Funktionen, um mit PDF-Dateien zu arbeiten und Textdaten aus solchen Dateien zu lesen.
Wir werden unten einige Grundlagen dieses Pakets besprechen.
Installation des pdfminer
-Pakets in Python
Das Paket pdfminer
unterstützt Python 3 neuerer Versionen nicht. Wir können den Fork dieses Pakets namens pdfminer.six
für Python 3 verwenden.
Wir können dies mit dem folgenden pip
-Befehl von der Eingabeaufforderung aus installieren.
pip install pdfminer.six
Verwenden des pdfminer
-Pakets in Python
Wir können die Funktion extract_text()
verwenden, um Text aus einem auf dem Gerät gespeicherten PDF zu extrahieren, wir können die Funktion extract_text()
verwenden. Wir können den Pfad der Datei innerhalb der Funktion angeben.
Siehe folgendes Beispiel.
from pdfminer.high_level import extract_text
s = extract_text("sample.pdf")
print(s)
Ausgabe:
Sample PDF from device
Wir können dieselbe Funktion auf unterschiedliche Weise verwenden.
Wir können eine PDF-Datei mit der Funktion open()
öffnen, ein Dateiobjekt erstellen und dieses Dateiobjekt zum Lesen der Daten verwenden. Dazu müssen wir die Datei im rb
-Modus öffnen.
Beispielsweise,
from pdfminer.high_level import extract_text
with open("sample.pdf", "rb") as f:
s = extract_text(f)
print(s)
Ausgabe:
Sample PDF from device
Mit dieser Funktion können wir eine Datei aus dem Internet lesen und ihren Inhalt extrahieren.
Zuerst lesen wir die Datei mit der angegebenen URL in der Funktion requests.get()
. Sein Inhalt kann mit der Funktion content()
abgerufen werden.
Diese Datei laden wir dann mit der Funktion io.BytesIO()
in den Speicher und extrahieren ihren Text mit der Funktion extract_pdf()
.
Überprüfen Sie die folgende Syntax.
import io
import requests
r = requests.get(url)
s = extract_text(io.BytesIO(response.content))
print(s)
Das Paket pdfminer
war bis Python 2.7 weit verbreitet, verlor dann aber aufgrund von Kompatibilitätsproblemen mit Python 3 an Popularität.
Es sind jedoch neue Pakete aufgetaucht, die eine schnellere Möglichkeit bieten, mit PDF-Dateien in Python zu arbeiten. Das pyPDF2
ist eine solche verfügbare Alternative.
Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.
LinkedIn