Python의 URL에서 도메인 추출

Naila Saad Siddiqui 2023년6월21일
Python의 URL에서 도메인 추출

이 기사에서는 실용적인 예제를 사용하여 URL에서 도메인 이름을 구문 분석하고 추출하는 Python의 urlparse() 기능을 설명합니다. 또한 URL을 확인하고 다양한 구성 요소를 사용하는 기능을 개선하는 방법에 대해서도 논의합니다.

urlparse()를 사용하여 URL에서 도메인 추출

urlparse() 메서드는 Python의 urllib 모듈의 일부이며 URL을 여러 구성 요소로 분할하고 다양한 용도로 사용해야 할 때 유용합니다. 예를 살펴보겠습니다.

from urllib.parse import urlparse

component = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07")
print(component)

이 코드 스니펫에서는 먼저 urllib 모듈의 라이브러리 파일을 포함했습니다. 그런 다음 urlparse 함수에 URL을 전달했습니다. 이 함수의 반환 값은 아래에 나열된 6개의 요소가 있는 배열처럼 작동하는 개체입니다.

  • scheme - 예를 들어 HTTP/HTTPS와 같이 온라인 리소스를 가져오는 데 사용할 수 있는 프로토콜을 지정합니다.
  • netloc - net은 네트워크를 의미하고 loc은 위치를 의미합니다. URL의 네트워크 위치를 의미합니다.
  • 경로 - 웹 브라우저가 제공된 리소스에 액세스하는 데 사용하는 특정 경로입니다.
  • params - path 요소의 매개변수입니다.
  • 쿼리 - 리소스가 사용할 수 있는 경로 구성 요소 및 데이터의 스트림을 준수합니다.
  • fragment - 부분을 분류합니다.

인쇄 기능을 사용하여 이 개체를 표시하면 해당 구성 요소의 값이 인쇄됩니다. 위 코드 펜스의 출력은 다음과 같습니다.

ParseResult(scheme='http', netloc='www.google.com', path='/doodles/mothers-day-2021-april-07', params='', query='', fragment='')

출력에서 모든 URL 구성 요소가 분리되어 객체의 개별 요소로 저장되는 것을 볼 수 있습니다. 다음과 같이 이름을 사용하여 구성 요소의 값을 얻을 수 있습니다.

from urllib.parse import urlparse

domain_name = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07").netloc
print(domain_name)

netloc 구성 요소를 사용하여 다음과 같이 URL의 도메인 이름을 얻을 수 있습니다.

www.google.com

이렇게 하면 URL을 구문 분석하고 프로그래밍에서 다양한 목적을 위해 다양한 구성 요소를 사용할 수 있습니다.

관련 문장 - Python URL