Python에서 HTTP 요청으로 HTML 가져오기
HTTP 또는 하이퍼텍스트 전송 프로토콜은 인터넷 또는 WWW(월드 와이드 웹)의 기초입니다. 기본적으로 웹 서버에서 Chrome, Firefox 및 Brave와 같은 웹 브라우저로 데이터를 전송하기 위한 애플리케이션 계층 프로토콜입니다. HTTP 요청은 HTML(Hypertext Markup Language)과 같은 하이퍼미디어 문서 및 필수 리소스를 가져오기 위해 고유한 웹 주소 또는 URL로 전송됩니다. URL 또는 Uniform Resource Locator는 인터넷을 통해 콘텐츠를 찾는 데 사용되는 고유한 웹 주소입니다. 대상 콘텐츠는 HTML 파일 및 텍스트 파일, 이미지, 오디오, 비디오, zip 파일 및 실행 파일이 될 수 있습니다.
이 가이드에서는 Python을 사용하여 HTTP 요청을 사용하여 URL에서 HTML을 가져오는 방법을 배웁니다.
Python에서 requests
모듈을 사용하여 HTTP 요청 보내기
requests
는 인터넷을 통해 HTTP 요청을 보낼 수 있는 Python 패키지입니다. 이 모듈을 사용하여 HTTP 요청을 URL로 보내고 HTML 및 기타 필수 세부 정보를 가져올 수 있습니다. requests
모듈에는 GET 요청을 지정된 URL로 보내고 requests.Response
유형 개체를 반환하는 get()
메서드가 있습니다. 이 메서드와 반환된 응답을 사용하여 HTML 콘텐츠를 가져옵니다. Python 프로그램은 다음 코드를 참조하십시오.
import requests
r = requests.get("https://www.google.com")
print("Status Code:", r.status_code)
print("URL:", r.url)
print("HTML:\n", r.text)
출력:
Status Code: 200
URL: https://www.google.com/
HTML:
...
위의 코드에서 우리는 먼저 https://www.google.com
에 GET 요청을 했고 반환된 응답은 변수 r
에 저장되었습니다. 응답의 text
속성은 HTML 콘텐츠를 반환합니다. 출력에는 HTML 내용이 표시되지 않지만 ...
는 기사의 가독성을 높이기에는 너무 크기 때문에 표시됩니다.