Pandas에서 GZ 파일 읽기

Hira Arif 2023년6월21일 Pandas Pandas Read
  1. Pandas에서 GZ 파일 읽기
  2. Pandas 데이터 프레임을 사용하여 gz 파일 읽기
Pandas에서 GZ 파일 읽기

Python 광이고 데이터 분석 및 처리에 Python을 사용하는 경우 Python을 사용하여 gz 파일을 Pandas 데이터 프레임으로 읽는 데 관심이 있을 수 있습니다. 이 튜토리얼은 pandas라는 Python 라이브러리를 사용하여 gz 파일을 데이터 프레임으로 읽는 가능한 방법에 대해 교육합니다.

Pandas에서 GZ 파일 읽기

gz는 표준 GNU zip(gzip) 압축 알고리즘으로 압축된 압축 파일의 파일 확장자입니다. Linux 및 Unix 운영 체제의 압축 형식으로 널리 사용됩니다. 예를 들어 이메일용 파일이 있는 경우 gz 파일 형식을 사용하여 파일을 더 작은 파일로 압축할 수 있습니다.

대용량 데이터 파일은 압축 알고리즘을 사용하여 압축하고 이 데이터를 사용하기 위해 사용자는 조직화된 구조로 콘텐츠를 읽어야 합니다.

파이썬 라이브러리; Pandas에는 Python 및 NumPy 생태계의 필수 부분인 데이터 프레임이라는 데이터 유형이 있어 테이블 및 스프레드시트보다 더 빠르고 사용하기 쉽고 강력합니다.

데이터 프레임은 2차원, 크기 조정 가능, 잠재적으로 이기종 테이블 형식 데이터를 나타내는 데 사용되는 데이터 구조입니다. 여기에는 레이블이 지정된 축(행 및 열)이 포함됩니다.

산술 연산은 행 및 열 레이블 모두에 배치됩니다. 시리즈 개체, 스프레드시트 또는 SQL 테이블을 위한 딕셔너리 같은 컨테이너입니다.

따라서 Python을 사용하여 gz 파일을 Pandas 데이터 프레임으로 읽는 데 관심이 있다면 .gz 파일을 직접 읽을 수 없으므로 Python을 사용하여 파일의 데이터를 조직화된 형식으로 정렬해야 합니다.

그렇다면 .gz 파일을 읽는 방법은 무엇입니까? 이를 위해 아래 단계를 따라야 합니다.

  • gz 파일의 절대 경로와 파일 읽기를 위한 후속 속성을 명시합니다.
  • pandas 모듈의 read_csv() 메서드를 사용하고 매개변수를 전달합니다.
  • pandas DataFrame을 사용하여 gz 파일의 데이터를 보고 조작합니다.

Pandas 데이터 프레임을 사용하여 gz 파일 읽기

CSV 파일 50_Startups.csv에 대한 gz 압축 파일을 읽고 싶다고 가정합니다.

path_gzip_file = "F:/50_Startups.csv.gz"

이를 위해 다음 코드를 실행해 봅시다.

예제 코드(demo.py에 저장됨):

import pandas as pd

path_gzip_file = "F:/50_Startups.csv.gz"

gzip_file_data_frame = pd.read_csv(
    path_gzip_file, compression="gzip", header=0, sep=",", quotechar='"'
)

print(gzip_file_data_frame.head(5))

먼저 pandas 모듈을 가져오고 pd라는 별칭을 지정하여 데이터 프레임으로 작업하고 파일을 읽습니다. 다음으로 gz 파일의 절대 경로를 지정합니다.

그런 다음 pandas 모듈의 pd.read_csv() 메서드를 호출하고 매개 변수를 전달합니다. pd.read_csv는 여러 매개변수를 사용하고 pandas 데이터 프레임을 반환합니다.

아래 나열된 5개의 매개변수를 전달합니다.

  1. 첫 번째는 문자열 path 개체입니다.
  2. 두 번째는 문자열 compression 유형(이 경우 gzip)입니다.
  3. 세 번째 매개변수는 정수형인 header입니다 (header=0을 명시적으로 전달하여 기존 이름을 대체할 수 있도록 합니다. 헤더는 열의 다중 색인을 위한 행 위치를 지정하는 정수 목록일 수 있습니다 - [0,1,3]).
  4. 네 번째는 delimiter 문자열입니다(이 경우 ,).
  5. 다섯 번째는 quotechar, 선택적 길이 1 문자열(인용된 항목의 시작과 끝을 표시하는 데 사용되는 문자. 인용된 항목은 구분 기호를 포함할 수 있으며 무시됩니다.)

마지막으로, 하나의 매개변수 n을 사용하는 head() 함수로 데이터 프레임을 연결하고 처음 n개의 데이터 행을 반환한 다음 데이터를 인쇄합니다.

이제 위의 코드를 다음과 같이 실행합니다.

PS F:\> & C:/Python310/python.exe f:/demo.py

50_Startups.csv.gz 파일을 성공적으로 읽었습니다. 아래 파일 내용의 처음 5개 행을 참조하십시오.

   R&D Spend  Administration  Marketing Spend       State     Profit
0  165349.20       136897.80        471784.10    New York  192261.83
1  162597.70       151377.59        443898.53  California  191792.06
2  153441.51       101145.55        407934.54     Florida  191050.39
3  144372.41       118671.85        383199.62    New York  182901.99
4  142107.34        91391.77        366168.42     Florida  166187.94
튜토리얼이 마음에 드시나요? DelftStack을 구독하세요 YouTube에서 저희가 더 많은 고품질 비디오 가이드를 제작할 수 있도록 지원해주세요. 구독하다