在 Python 中使用 HTTP 請求獲取 HTML

Vaibhav Vaibhav 2022年5月18日
在 Python 中使用 HTTP 請求獲取 HTML

HTTP 或超文字傳輸​​協議是 Internet 或全球資訊網 (WWW) 的基礎。從本質上講,它是一種應用層協議,用於將資料從 Web 伺服器傳輸到 Web 瀏覽器,例如 Chrome、Firefox 和 Brave。HTTP 請求被髮送到唯一的 Web 地址或 URL,以獲取所需的資源和超媒體文件,例如 HTML(超文字標記語言)。URL 或統一資源定位器是用於在 Internet 上定位內容的唯一網址。目標內容可以是 HTML 檔案和文字檔案、影象、音訊、視訊、zip 檔案和可執行檔案。

在本指南中,我們將學習在使用 Python 的 HTTP 請求的幫助下從 URL 獲取 HTML 的方法。

使用 Python 中的 requests 模組傳送 HTTP 請求

requests 是一個 Python 包,它允許我們通過網際網路傳送 HTTP 請求。我們可以使用此模組向 URL 傳送 HTTP 請求並獲取 HTML 和其他基本細節。requests 模組有一個 get() 方法,該方法將 GET 請求傳送到指定的 URL 並返回一個 requests.Response 型別的物件。我們將使用此方法和返回的響應來獲取 HTML 內容。Python 程式請參考以下程式碼。

import requests

r = requests.get("https://www.google.com")
print("Status Code:", r.status_code)
print("URL:", r.url)
print("HTML:\n", r.text)

輸出:

Status Code: 200
URL: https://www.google.com/
HTML:
...

在上面的程式碼中,我們首先向 https://www.google.com 發出 GET 請求,返回的響應儲存在變數 r 中。響應中的 text 屬性返回 HTML 內容。輸出不顯示 HTML 內容,而是顯示 ...,因為它太大而無法提高文章的可讀性。

作者: Vaibhav Vaibhav
Vaibhav Vaibhav avatar Vaibhav Vaibhav avatar

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.