Python의 URL에서 도메인 추출
Naila Saad Siddiqui
2023년6월21일
이 기사에서는 실용적인 예제를 사용하여 URL에서 도메인 이름을 구문 분석하고 추출하는 Python의 urlparse()
기능을 설명합니다. 또한 URL을 확인하고 다양한 구성 요소를 사용하는 기능을 개선하는 방법에 대해서도 논의합니다.
urlparse()
를 사용하여 URL에서 도메인 추출
urlparse()
메서드는 Python의 urllib
모듈의 일부이며 URL을 여러 구성 요소로 분할하고 다양한 용도로 사용해야 할 때 유용합니다. 예를 살펴보겠습니다.
from urllib.parse import urlparse
component = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07")
print(component)
이 코드 스니펫에서는 먼저 urllib
모듈의 라이브러리 파일을 포함했습니다. 그런 다음 urlparse
함수에 URL을 전달했습니다. 이 함수의 반환 값은 아래에 나열된 6개의 요소가 있는 배열처럼 작동하는 개체입니다.
scheme
- 예를 들어HTTP
/HTTPS
와 같이 온라인 리소스를 가져오는 데 사용할 수 있는 프로토콜을 지정합니다.netloc
-net
은 네트워크를 의미하고loc
은 위치를 의미합니다. URL의 네트워크 위치를 의미합니다.경로
- 웹 브라우저가 제공된 리소스에 액세스하는 데 사용하는 특정 경로입니다.params
-path
요소의 매개변수입니다.쿼리
- 리소스가 사용할 수 있는경로
구성 요소 및 데이터의 스트림을 준수합니다.fragment
- 부분을 분류합니다.
인쇄 기능을 사용하여 이 개체를 표시하면 해당 구성 요소의 값이 인쇄됩니다. 위 코드 펜스의 출력은 다음과 같습니다.
ParseResult(scheme='http', netloc='www.google.com', path='/doodles/mothers-day-2021-april-07', params='', query='', fragment='')
출력에서 모든 URL 구성 요소가 분리되어 객체의 개별 요소로 저장되는 것을 볼 수 있습니다. 다음과 같이 이름을 사용하여 구성 요소의 값을 얻을 수 있습니다.
from urllib.parse import urlparse
domain_name = urlparse("http://www.google.com/doodles/mothers-day-2021-april-07").netloc
print(domain_name)
netloc
구성 요소를 사용하여 다음과 같이 URL의 도메인 이름을 얻을 수 있습니다.
www.google.com
이렇게 하면 URL을 구문 분석하고 프로그래밍에서 다양한 목적을 위해 다양한 구성 요소를 사용할 수 있습니다.