Convertir PDF a texto en Python

Oluwafisayo Oluwatayo 21 junio 2023
  1. Convierta PDF en texto en Python con PyPDF2
  2. Convierta PDF en texto en Python con Aspose
  3. Convierta PDF en texto en Python con PDFminer
  4. Conclusión
Convertir PDF a texto en Python

El marco de trabajo de Python no es solo para crear aplicaciones. Podemos usar Python para convertir documentos PDF en archivos .txt.

Cuando convertimos un archivo PDF a texto, el contenido de la página se vuelve editable, algo que es imposible con los archivos PDF. Hay diferentes bibliotecas que podemos emplear para convertir PDF a texto. Probemos algunos.

Convierta PDF en texto en Python con PyPDF2

El primer método en el que trabajaremos es la biblioteca PyPDF2. Lo instalaremos usando pip install PyPDF2 dentro de la terminal.

Una vez hecho esto, crearemos un nuevo archivo y lo llamaremos nuevo.py. A continuación, navegaremos hasta el archivo y escribiremos estos códigos.

Fragmento de código- nuevo.py:

import PyPDF2

pdfFileObj = open(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf", "rb")

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)

print(pageObj.extractText())

pdfFileObj.close()

Después de ejecutar este código, espere unos momentos. Debería ver el texto sin formato dentro de la terminal, y luego puede copiarlo y pegarlo dentro de un documento de Word o Bloc de notas.

Producción:

Conversión de PDF a texto usando PyPDF2

Convierta PDF en texto en Python con Aspose

El convertidor de PDF a texto de Aspose para Python ofrece un fragmento de código más corto que PyPDF2, pero es igual de eficiente. Además, Aspose crea el texto en un archivo .txt, a diferencia del primer ejemplo que produce el contenido de texto dentro de la terminal.

Instalaremos Aspose desde nuestra terminal con: pip install aspose-words. Después de la instalación, cree un nuevo archivo que albergará los códigos, luego coloque estos fragmentos.

Fragmento de código- nuevo.py:

import aspose.words as aw

doc = aw.Document(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
doc.save(r"C:\Users\HP\Desktop\BOOKS\text\doc.txt")

Después de importar Aspose, declaramos la ruta del archivo que queremos convertir a texto. Luego, declaramos la ruta de destino del archivo .txt dentro de doc.save.

Producción:

Conversión de PDF a texto usando Aspose

Convierta PDF en texto en Python con PDFminer

Finalmente, extraeremos texto de un PDF con PDFminer. Observaremos que PDFminer extrae más textos que PyPDF y requiere menos código.

Instale PDFminer escribiendo pip install pdfminer.six dentro de la terminal. Después de la instalación, cree un nuevo archivo de Python, asígnele el nombre nuevo.py o cualquier nombre de su elección, y escriba estos códigos.

from pdfminer.high_level import extract_text

text = extract_text(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
print(repr(text))

Después de unos momentos, verá los textos dentro de su terminal. Luego puede copiarlo desde allí a un documento.

Producción:

Conversión de PDF a texto usando PDFminer

Conclusión

A la mayoría de nosotros generalmente nos gusta conectarnos en línea para convertir archivos PDF en textos, pero descubrir que podemos hacer esto con Python puede ahorrarnos el estrés de estar en línea y también nos ayuda a lidiar con el riesgo de filtrar datos confidenciales en la web.

Oluwafisayo Oluwatayo avatar Oluwafisayo Oluwatayo avatar

Fisayo is a tech expert and enthusiast who loves to solve problems, seek new challenges and aim to spread the knowledge of what she has learned across the globe.

LinkedIn

Artículo relacionado - Python File