Webseite in Python abrufen

Manav Narula 8 April 2022
  1. Verwenden Sie das urllib-Paket, um eine Webseite in Python zu erhalten
  2. Verwendung des requests-Pakets, um eine Webseite in Python zu erhalten
Webseite in Python abrufen

In Python können wir Verbindungen herstellen und Daten aus dem Web lesen. Wir können Dateien über das Internet herunterladen und ganze Webseiten lesen.

Dieses Tutorial zeigt, wie Sie eine Webseite in Python erhalten.

Verwenden Sie das urllib-Paket, um eine Webseite in Python zu erhalten

Dieses Paket wird verwendet, um Webseiten abzurufen und URL-bezogene Operationen in Python auszuführen. Wir können die Funktion urllib.request.urlopen() verwenden, um eine Webseite über ihre URL abzurufen.

Das Modul urllib.request öffnet die angegebene URL und gibt ein Objekt zurück. Dieses Objekt hat verschiedene Attribute wie header, status und mehr. Mit diesem Objekt können wir die Webseite mit der Funktion read() lesen. Es wird der vollständige Inhalt der Webseite zurückgegeben.

Siehe folgendes Beispiel.

import urllib.request

page = urllib.request.urlopen("http://www.python.org")
print(page.read())

In letzter Zeit sind neuere Versionen des Pakets urllib aufgetaucht. Erstens haben wir das Paket urllib2, das als experimentelle Version von urllib mit neueren und verbesserten Funktionen erstellt wurde. Es kann auch das Objekt Requests aus dem Paket requests annehmen. Der urlencode() fehlt im Paket urllib2.

Das Paket urllib3 wurde ebenfalls eingeführt und ist im Gegensatz zu den beiden vorherigen Versionen ein Drittanbieterpaket. Das unten besprochene requests-Paket verwendet intern Funktionalitäten aus diesem Paket.

Verwendung des requests-Pakets, um eine Webseite in Python zu erhalten

Die Bibliothek requests ist einfach zu verwenden und bietet viele HTTP-bezogene Funktionalitäten. Wir können die Funktion requests.get() verwenden, um eine Webseite abzurufen und ein Response-Objekt zurückzugeben.

Dieses Objekt besitzt auch mehrere Attribute wie status_code, content und mehr. Wir können das Attribut content verwenden, um den Inhalt der angegebenen Webseite zurückzugeben.

Beispielsweise,

import requests

response = requests.get("http://www.python.org")
print(response.status_code)
print(response.content)

Die requests-Bibliothek zielt darauf ab, eine einfach zu verwendende API bereitzustellen und bietet eine bequemere Möglichkeit, Fehler zu behandeln. Außerdem wird die abgerufene Antwort automatisch in Unicode dekodiert.

Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn