Obtenga HTML con solicitudes HTTP en Python
HTTP o Protocolo de transferencia de hipertexto es la base de Internet o la World Wide Web (WWW). Esencialmente, es un protocolo de capa de aplicación destinado a transferir datos desde servidores web a navegadores web como Chrome, Firefox y Brave. Las solicitudes HTTP se envían a direcciones web o URL únicas para obtener los recursos necesarios y los documentos hipermedia como HTML (Hypertext Markup Language). Una URL o un localizador uniforme de recursos es una dirección web única que se utiliza para localizar contenido en Internet. El contenido de destino puede ser archivos HTML y archivos de texto, imágenes, audios, videos, archivos zip y ejecutables.
En esta guía, aprenderemos las formas de obtener HTML en una URL con la ayuda de solicitudes HTTP usando Python.
Enviar solicitudes HTTP con el módulo requests
en Python
Las requests
es un paquete de Python que nos permite enviar solicitudes HTTP a través de Internet. Podemos usar este módulo para enviar solicitudes HTTP a una URL y obtener HTML y otros detalles esenciales. El módulo requests
tiene un método get()
que envía una solicitud GET a la URL especificada y devuelve un objeto de tipo requests.Response
. Usaremos este método y la respuesta devuelta para obtener contenido HTML. Consulte el siguiente código para el programa Python.
import requests
r = requests.get("https://www.google.com")
print("Status Code:", r.status_code)
print("URL:", r.url)
print("HTML:\n", r.text)
Producción :
Status Code: 200
URL: https://www.google.com/
HTML:
...
En el código anterior, primero hicimos una solicitud GET a https://www.google.com
, y la respuesta devuelta se almacenó en la variable r
. El atributo text
en la respuesta devuelve el contenido HTML. La salida no muestra el contenido HTML, sino ...
porque era demasiado grande para una mejor legibilidad del artículo.