Konvertieren Sie PDF in Text in Python

Oluwafisayo Oluwatayo 15 Februar 2024
  1. Konvertieren Sie PDF in Text in Python mit PyPDF2
  2. Konvertieren Sie PDF in Text in Python mit Aspose
  3. Konvertieren Sie PDF in Text in Python mit PDFminer
  4. Abschluss
Konvertieren Sie PDF in Text in Python

Das Python-Framework dient nicht nur zum Erstellen von Anwendungen. Wir können Python verwenden, um PDF-Dokumente in .txt-Dateien umzuwandeln.

Wenn wir eine PDF-Datei in Text konvertieren, wird der Inhalt der Seite bearbeitbar, was bei PDF-Dateien unmöglich ist. Es gibt verschiedene Bibliotheken, die wir verwenden können, um PDF in Text umzuwandeln. Lassen Sie uns ein paar ausprobieren.

Konvertieren Sie PDF in Text in Python mit PyPDF2

Die erste Methode, an der wir arbeiten werden, ist die PyPDF2-Bibliothek. Wir werden es mit pip install PyPDF2 im Terminal installieren.

Sobald dies erledigt ist, erstellen wir eine neue Datei und nennen sie new.py. Als nächstes navigieren wir zu der Datei und geben diese Codes ein.

Codeschnipsel- new.py:

import PyPDF2

pdfFileObj = open(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf", "rb")

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)

print(pageObj.extractText())

pdfFileObj.close()

Nachdem Sie diesen Code ausgeführt haben, warten Sie bitte einen Moment. Sie sollten den Klartext im Terminal sehen und können ihn dann kopieren und in ein Word-Dokument oder einen Editor einfügen.

Ausgang:

Konvertieren von PDF in Text mit PyPDF2

Konvertieren Sie PDF in Text in Python mit Aspose

Der PDF-zu-Text-Konverter von Aspose für Python bietet ein kürzeres Code-Snippet als PyPDF2, ist aber genauso effizient. Außerdem erstellt Aspose den Text in einer .txt-Datei, im Gegensatz zum ersten Beispiel, das den Textinhalt im Terminal erzeugt.

Wir installieren Aspose von unserem Terminal aus mit: pip install aspose-words. Erstellen Sie nach der Installation eine neue Datei, die die Codes enthält, und fügen Sie dann diese Schnipsel ein.

Codeschnipsel- new.py:

import aspose.words as aw

doc = aw.Document(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
doc.save(r"C:\Users\HP\Desktop\BOOKS\text\doc.txt")

Nachdem wir Aspose importiert haben, geben wir den Pfad der Datei an, die wir in Text konvertieren möchten. Dann deklarieren wir den Zielpfad der .txt-Datei in doc.save.

Ausgang:

Konvertieren von PDF in Text mit Aspose

Konvertieren Sie PDF in Text in Python mit PDFminer

Schließlich werden wir mit PDFminer Text aus einem PDF extrahieren. Wir werden beobachten, dass PDFminer mehr Texte extrahiert als PyPDF und weniger Code benötigt.

Installieren Sie PDFminer, indem Sie im Terminal pip install pdfminer.six eingeben. Erstellen Sie nach der Installation eine neue Python-Datei, nennen Sie sie new.py oder einen beliebigen Namen Ihrer Wahl und geben Sie diese Codes ein.

from pdfminer.high_level import extract_text

text = extract_text(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
print(repr(text))

Nach wenigen Augenblicken sehen Sie die Texte in Ihrem Terminal. Dann können Sie es von dort in ein Dokument kopieren.

Ausgang:

Konvertieren von PDF in Text mit PDFminer

Abschluss

Die meisten von uns möchten normalerweise online gehen, um PDF-Dateien in Texte umzuwandeln, aber zu entdecken, dass wir dies mit Python tun können, kann uns den Stress ersparen, online zu gehen, und hilft uns auch, mit dem Risiko umzugehen, vertrauliche Daten im Internet preiszugeben.

Oluwafisayo Oluwatayo avatar Oluwafisayo Oluwatayo avatar

Fisayo is a tech expert and enthusiast who loves to solve problems, seek new challenges and aim to spread the knowledge of what she has learned across the globe.

LinkedIn

Verwandter Artikel - Python File