Konvertieren Sie PDF in Text in Python
- Konvertieren Sie PDF in Text in Python mit PyPDF2
- Konvertieren Sie PDF in Text in Python mit Aspose
- Konvertieren Sie PDF in Text in Python mit PDFminer
- Abschluss
Das Python-Framework dient nicht nur zum Erstellen von Anwendungen. Wir können Python verwenden, um PDF-Dokumente in .txt
-Dateien umzuwandeln.
Wenn wir eine PDF-Datei in Text konvertieren, wird der Inhalt der Seite bearbeitbar, was bei PDF-Dateien unmöglich ist. Es gibt verschiedene Bibliotheken, die wir verwenden können, um PDF in Text umzuwandeln. Lassen Sie uns ein paar ausprobieren.
Konvertieren Sie PDF in Text in Python mit PyPDF2
Die erste Methode, an der wir arbeiten werden, ist die PyPDF2-Bibliothek. Wir werden es mit pip install PyPDF2
im Terminal installieren.
Sobald dies erledigt ist, erstellen wir eine neue Datei und nennen sie new.py
. Als nächstes navigieren wir zu der Datei und geben diese Codes ein.
Codeschnipsel- new.py
:
import PyPDF2
pdfFileObj = open(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf", "rb")
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
Nachdem Sie diesen Code ausgeführt haben, warten Sie bitte einen Moment. Sie sollten den Klartext im Terminal sehen und können ihn dann kopieren und in ein Word-Dokument oder einen Editor einfügen.
Ausgang:
Konvertieren Sie PDF in Text in Python mit Aspose
Der PDF-zu-Text-Konverter von Aspose für Python bietet ein kürzeres Code-Snippet als PyPDF2, ist aber genauso effizient. Außerdem erstellt Aspose den Text in einer .txt
-Datei, im Gegensatz zum ersten Beispiel, das den Textinhalt im Terminal erzeugt.
Wir installieren Aspose von unserem Terminal aus mit: pip install aspose-words
. Erstellen Sie nach der Installation eine neue Datei, die die Codes enthält, und fügen Sie dann diese Schnipsel ein.
Codeschnipsel- new.py
:
import aspose.words as aw
doc = aw.Document(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
doc.save(r"C:\Users\HP\Desktop\BOOKS\text\doc.txt")
Nachdem wir Aspose importiert haben, geben wir den Pfad der Datei an, die wir in Text konvertieren möchten. Dann deklarieren wir den Zielpfad der .txt
-Datei in doc.save
.
Ausgang:
Konvertieren Sie PDF in Text in Python mit PDFminer
Schließlich werden wir mit PDFminer Text aus einem PDF extrahieren. Wir werden beobachten, dass PDFminer mehr Texte extrahiert als PyPDF und weniger Code benötigt.
Installieren Sie PDFminer, indem Sie im Terminal pip install pdfminer.six
eingeben. Erstellen Sie nach der Installation eine neue Python-Datei, nennen Sie sie new.py
oder einen beliebigen Namen Ihrer Wahl und geben Sie diese Codes ein.
from pdfminer.high_level import extract_text
text = extract_text(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
print(repr(text))
Nach wenigen Augenblicken sehen Sie die Texte in Ihrem Terminal. Dann können Sie es von dort in ein Dokument kopieren.
Ausgang:
Abschluss
Die meisten von uns möchten normalerweise online gehen, um PDF-Dateien in Texte umzuwandeln, aber zu entdecken, dass wir dies mit Python tun können, kann uns den Stress ersparen, online zu gehen, und hilft uns auch, mit dem Risiko umzugehen, vertrauliche Daten im Internet preiszugeben.
Fisayo is a tech expert and enthusiast who loves to solve problems, seek new challenges and aim to spread the knowledge of what she has learned across the globe.
LinkedInVerwandter Artikel - Python File
- So erhalten Sie alle Dateien eines Verzeichnisses
- Wie man in Python Text an eine Datei anhängt
- Wie man prüft, ob eine Datei in Python existiert
- Wie man Dateien mit einer bestimmten Endung nur in Python findet
- Wie man bestimmte Zeilen aus einer Datei in Python liest
- Dateiberechtigungen in Python ändern