Obtener página web en Python
-
Use el paquete
urllib
para obtener una página web en Python -
Utilizar el paquete
requests
para obtener una página web en Python
En Python, podemos crear conexiones y leer datos de la web. Podemos descargar archivos a través de la web y leer páginas web completas.
Este tutorial muestra cómo obtener una página web en Python.
Use el paquete urllib
para obtener una página web en Python
Este paquete se usa para obtener páginas web y manejar operaciones relacionadas con URL en Python. Podemos usar la función urllib.request.urlopen()
para recuperar una página web usando su URL.
El módulo urllib.request
abre la URL dada y devuelve un objeto. Este objeto tiene diferentes atributos como header
, status
, y más. Podemos leer la página web usando la función read()
con este objeto. Nos devolverá el contenido completo de la página web.
Vea el siguiente ejemplo.
import urllib.request
page = urllib.request.urlopen("http://www.python.org")
print(page.read())
En los últimos tiempos, han surgido nuevas versiones del paquete urllib
. Primero, tenemos el paquete urllib2
, construido como una versión experimental de urllib
con características más nuevas y mejoradas. También puede aceptar el objeto Requests
del paquete requests
. En el paquete urllib2
falta la función urlencode()
.
El paquete urllib3
también fue introducido y es un paquete de terceros, a diferencia de las dos versiones anteriores. El paquete requests
del que hablamos a continuación utiliza internamente funcionalidades de este paquete.
Utilizar el paquete requests
para obtener una página web en Python
La librería requests
es sencilla de utilizar y proporciona muchas funcionalidades relacionadas con HTTP. Podemos utilizar la función requests.get()
para obtener una página web y devolver un objeto Response
.
Este objeto también posee varios atributos como status_code
, content
y más. Podemos usar el atributo content
para devolver el contenido de la página web dada.
Por ejemplo,
import requests
response = requests.get("http://www.python.org")
print(response.status_code)
print(response.content)
La librería requests
tiene como objetivo proporcionar una API simple de usar y tiene una forma más conveniente de manejar los errores. Además, decodifica automáticamente la respuesta recuperada en Unicode.
Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.
LinkedIn