Convertir PDF a texto en Python
- Convierta PDF en texto en Python con PyPDF2
- Convierta PDF en texto en Python con Aspose
- Convierta PDF en texto en Python con PDFminer
- Conclusión
El marco de trabajo de Python no es solo para crear aplicaciones. Podemos usar Python para convertir documentos PDF en archivos .txt
.
Cuando convertimos un archivo PDF a texto, el contenido de la página se vuelve editable, algo que es imposible con los archivos PDF. Hay diferentes bibliotecas que podemos emplear para convertir PDF a texto. Probemos algunos.
Convierta PDF en texto en Python con PyPDF2
El primer método en el que trabajaremos es la biblioteca PyPDF2. Lo instalaremos usando pip install PyPDF2
dentro de la terminal.
Una vez hecho esto, crearemos un nuevo archivo y lo llamaremos nuevo.py
. A continuación, navegaremos hasta el archivo y escribiremos estos códigos.
Fragmento de código- nuevo.py
:
import PyPDF2
pdfFileObj = open(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf", "rb")
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
Después de ejecutar este código, espere unos momentos. Debería ver el texto sin formato dentro de la terminal, y luego puede copiarlo y pegarlo dentro de un documento de Word o Bloc de notas.
Producción:
Convierta PDF en texto en Python con Aspose
El convertidor de PDF a texto de Aspose para Python ofrece un fragmento de código más corto que PyPDF2, pero es igual de eficiente. Además, Aspose crea el texto en un archivo .txt
, a diferencia del primer ejemplo que produce el contenido de texto dentro de la terminal.
Instalaremos Aspose desde nuestra terminal con: pip install aspose-words
. Después de la instalación, cree un nuevo archivo que albergará los códigos, luego coloque estos fragmentos.
Fragmento de código- nuevo.py
:
import aspose.words as aw
doc = aw.Document(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
doc.save(r"C:\Users\HP\Desktop\BOOKS\text\doc.txt")
Después de importar Aspose, declaramos la ruta del archivo que queremos convertir a texto. Luego, declaramos la ruta de destino del archivo .txt
dentro de doc.save
.
Producción:
Convierta PDF en texto en Python con PDFminer
Finalmente, extraeremos texto de un PDF con PDFminer. Observaremos que PDFminer extrae más textos que PyPDF y requiere menos código.
Instale PDFminer escribiendo pip install pdfminer.six
dentro de la terminal. Después de la instalación, cree un nuevo archivo de Python, asígnele el nombre nuevo.py
o cualquier nombre de su elección, y escriba estos códigos.
from pdfminer.high_level import extract_text
text = extract_text(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
print(repr(text))
Después de unos momentos, verá los textos dentro de su terminal. Luego puede copiarlo desde allí a un documento.
Producción:
Conclusión
A la mayoría de nosotros generalmente nos gusta conectarnos en línea para convertir archivos PDF en textos, pero descubrir que podemos hacer esto con Python puede ahorrarnos el estrés de estar en línea y también nos ayuda a lidiar con el riesgo de filtrar datos confidenciales en la web.
Fisayo is a tech expert and enthusiast who loves to solve problems, seek new challenges and aim to spread the knowledge of what she has learned across the globe.
LinkedIn