在 Python 中使用 HTTP 請求獲取 HTML
Vaibhav Vaibhav
2022年5月18日
HTTP 或超文字傳輸協議是 Internet 或全球資訊網 (WWW) 的基礎。從本質上講,它是一種應用層協議,用於將資料從 Web 伺服器傳輸到 Web 瀏覽器,例如 Chrome、Firefox 和 Brave。HTTP 請求被髮送到唯一的 Web 地址或 URL,以獲取所需的資源和超媒體文件,例如 HTML(超文字標記語言)。URL 或統一資源定位器是用於在 Internet 上定位內容的唯一網址。目標內容可以是 HTML 檔案和文字檔案、影象、音訊、視訊、zip 檔案和可執行檔案。
在本指南中,我們將學習在使用 Python 的 HTTP 請求的幫助下從 URL 獲取 HTML 的方法。
使用 Python 中的 requests
模組傳送 HTTP 請求
requests
是一個 Python 包,它允許我們通過網際網路傳送 HTTP 請求。我們可以使用此模組向 URL 傳送 HTTP 請求並獲取 HTML 和其他基本細節。requests
模組有一個 get()
方法,該方法將 GET 請求傳送到指定的 URL 並返回一個 requests.Response
型別的物件。我們將使用此方法和返回的響應來獲取 HTML 內容。Python 程式請參考以下程式碼。
import requests
r = requests.get("https://www.google.com")
print("Status Code:", r.status_code)
print("URL:", r.url)
print("HTML:\n", r.text)
輸出:
Status Code: 200
URL: https://www.google.com/
HTML:
...
在上面的程式碼中,我們首先向 https://www.google.com
發出 GET 請求,返回的響應儲存在變數 r
中。響應中的 text
屬性返回 HTML 內容。輸出不顯示 HTML 內容,而是顯示 ...
,因為它太大而無法提高文章的可讀性。
作者: Vaibhav Vaibhav