Extraer dominio de URL en Python
Este artículo utilizará ejemplos prácticos para explicar la función urlparse()
de Python para analizar y extraer el nombre de dominio de una URL. También hablaremos sobre cómo mejorar nuestra capacidad para resolver direcciones URL y usar sus diferentes componentes.
Utilice urlparse()
para extraer el dominio de la URL
El método urlparse()
es parte del módulo urllib
de Python, útil cuando necesita dividir las URL en diferentes componentes y usarlos para varios propósitos. Veamos el ejemplo:
from urllib.parse import urlparse
component = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07")
print(component)
En este fragmento de código, primero hemos incluido los archivos de la biblioteca del módulo urllib
. Luego pasamos una URL a la función urlparse
. El valor de retorno de esta función es un objeto que actúa como una matriz que tiene seis elementos que se enumeran a continuación:
esquema
- Especifique el protocolo que podemos usar para obtener los recursos en línea, por ejemplo,HTTP
/HTTPS
.netloc
-net
significa red yloc
significa ubicación; por lo que significa la ubicación de la red de URL.ruta
: una ruta específica que utiliza un navegador web para acceder a los recursos proporcionados.params
- Estos son los parámetros de los elementospath
.consulta
: se adhiere al componenteruta
y al flujo de datos que un recurso puede usar.fragmento
- Clasifica la pieza.
Cuando mostramos este objeto usando la función de impresión, imprimirá el valor de sus componentes. La salida de la valla de código anterior será la siguiente:
ParseResult(scheme='http', netloc='www.google.com', path='/doodles/mothers-day-2021-april-07', params='', query='', fragment='')
Puede ver en el resultado que todos los componentes de URL están separados y almacenados como elementos individuales en el objeto. Podemos obtener el valor de cualquier componente usando su nombre así:
from urllib.parse import urlparse
domain_name = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07").netloc
print(domain_name)
Usando el componente netloc
, podemos obtener el nombre de dominio de la URL de la siguiente manera:
www.google.com
De esta manera, podemos analizar nuestra URL y usar sus diferentes componentes para varios propósitos en nuestra programación.