Python で PDF を読む
-
Python で
PyPDF2
モジュールを使用して PDF を読む -
Python で
PDFplumber
モジュールを使用して PDF を読む -
Python で
textract
モジュールを使用して PDF を読む -
Python で
PDFminer.six
モジュールを使用して PDF を読む
PDF ドキュメントは変更できませんが、簡単かつ確実に共有できます。PDF ドキュメントには、テキスト、リンク、画像、表、フォームなど、さまざまな要素が含まれている場合があります。
このチュートリアルでは、Python で PDF ファイルを読み取ります。
Python で PyPDF2
モジュールを使用して PDF を読む
PyPDF2
は、PDF ドキュメントの情報の抽出、ドキュメントのマージ、ドキュメントの分割、ページのトリミング、PDF ファイルの暗号化または復号化などに使用できる Python モジュールです。
open('document_path.PDF', 'rb')
を使用して、PDF ドキュメントを読み取りバイナリモードで開きます。PDFFileReader()
は、ドキュメントを読み取るための PDF リーダーオブジェクトを作成するために使用されます。getPage()
および extractText()
メソッドを使用して、PDF ドキュメントのページからテキストを抽出できます。指定された PDF ドキュメントのページ数を取得するには、.numPages
を使用します。
例えば、
from PyPDF2 import PDFFileReader
temp = open("document_path.PDF", "rb")
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
上記のコードは、提供された PDF ドキュメントの最初のページにテキストを出力します。
Python で PDFplumber
モジュールを使用して PDF を読む
PDFplumber
は、PDF ドキュメントなどからテキストを読み取ったり抽出したりするために使用できる Python モジュールです。PDFplumber
モジュールは PyPDF2
モジュールと比較してより強力です。ここでは、open()
関数を使用して PDF ファイルを読み取ります。
例えば、
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
上記のコードは、提供された PDF ドキュメントの最初のページからテキストを出力します。
Python で textract
モジュールを使用して PDF を読む
textract
モジュールの関数 textract.process()
を使用して、PDF ドキュメントを読み取ることができます。
例えば、
import textract
PDF_read = textract.process("document_path.PDF", method="PDFminer")
Python で PDFminer.six
モジュールを使用して PDF を読む
PDFminer.six
は、PDF ドキュメントからテキストを読み取って抽出するために使用できる Python モジュールです。このモジュールの extract_text()
関数を使用して、PDF からテキストを読み取ります。
例えば、
from PDFminer.high_level import extract_text
PDF_read = extract_text("document_path.PDF")