Pandas에서 GZ 파일 읽기
Python 광이고 데이터 분석 및 처리에 Python을 사용하는 경우 Python을 사용하여 gz
파일을 Pandas 데이터 프레임으로 읽는 데 관심이 있을 수 있습니다. 이 튜토리얼은 pandas
라는 Python 라이브러리를 사용하여 gz
파일을 데이터 프레임으로 읽는 가능한 방법에 대해 교육합니다.
Pandas에서 GZ 파일 읽기
gz
는 표준 GNU zip(gzip
) 압축 알고리즘으로 압축된 압축 파일의 파일 확장자입니다. Linux 및 Unix 운영 체제의 압축 형식으로 널리 사용됩니다. 예를 들어 이메일용 파일이 있는 경우 gz
파일 형식을 사용하여 파일을 더 작은 파일로 압축할 수 있습니다.
대용량 데이터 파일은 압축 알고리즘을 사용하여 압축하고 이 데이터를 사용하기 위해 사용자는 조직화된 구조로 콘텐츠를 읽어야 합니다.
파이썬 라이브러리; Pandas에는 Python 및 NumPy
생태계의 필수 부분인 데이터 프레임이라는 데이터 유형이 있어 테이블 및 스프레드시트보다 더 빠르고 사용하기 쉽고 강력합니다.
데이터 프레임은 2차원, 크기 조정 가능, 잠재적으로 이기종 테이블 형식 데이터를 나타내는 데 사용되는 데이터 구조입니다. 여기에는 레이블이 지정된 축(행 및 열)이 포함됩니다.
산술 연산은 행 및 열 레이블 모두에 배치됩니다. 시리즈 개체, 스프레드시트 또는 SQL 테이블을 위한 딕셔너리 같은 컨테이너입니다.
따라서 Python을 사용하여 gz
파일을 Pandas 데이터 프레임으로 읽는 데 관심이 있다면 .gz
파일을 직접 읽을 수 없으므로 Python을 사용하여 파일의 데이터를 조직화된 형식으로 정렬해야 합니다.
그렇다면 .gz
파일을 읽는 방법은 무엇입니까? 이를 위해 아래 단계를 따라야 합니다.
-
gz
파일의 절대 경로와 파일 읽기를 위한 후속 속성을 명시합니다. -
pandas
모듈의read_csv()
메서드를 사용하고 매개변수를 전달합니다. -
pandas
DataFrame
을 사용하여gz
파일의 데이터를 보고 조작합니다.
Pandas 데이터 프레임을 사용하여 gz
파일 읽기
CSV 파일 50_Startups.csv
에 대한 gz
압축 파일을 읽고 싶다고 가정합니다.
path_gzip_file = "F:/50_Startups.csv.gz"
이를 위해 다음 코드를 실행해 봅시다.
예제 코드(demo.py
에 저장됨):
import pandas as pd
path_gzip_file = "F:/50_Startups.csv.gz"
gzip_file_data_frame = pd.read_csv(
path_gzip_file, compression="gzip", header=0, sep=",", quotechar='"'
)
print(gzip_file_data_frame.head(5))
먼저 pandas
모듈을 가져오고 pd
라는 별칭을 지정하여 데이터 프레임으로 작업하고 파일을 읽습니다. 다음으로 gz
파일의 절대 경로를 지정합니다.
그런 다음 pandas
모듈의 pd.read_csv()
메서드를 호출하고 매개 변수를 전달합니다. pd.read_csv
는 여러 매개변수를 사용하고 pandas
데이터 프레임을 반환합니다.
아래 나열된 5개의 매개변수를 전달합니다.
- 첫 번째는 문자열
path
개체입니다. - 두 번째는 문자열
compression
유형(이 경우gzip
)입니다. - 세 번째 매개변수는 정수형인
header
입니다 (header=0
을 명시적으로 전달하여 기존 이름을 대체할 수 있도록 합니다. 헤더는 열의 다중 색인을 위한 행 위치를 지정하는 정수 목록일 수 있습니다 -[0,1,3]
). - 네 번째는
delimiter
문자열입니다(이 경우,
). - 다섯 번째는
quotechar
, 선택적 길이1
문자열(인용된 항목의 시작과 끝을 표시하는 데 사용되는 문자. 인용된 항목은 구분 기호를 포함할 수 있으며 무시됩니다.)
마지막으로, 하나의 매개변수 n
을 사용하는 head()
함수로 데이터 프레임을 연결하고 처음 n
개의 데이터 행을 반환한 다음 데이터를 인쇄합니다.
이제 위의 코드를 다음과 같이 실행합니다.
PS F:\> & C:/Python310/python.exe f:/demo.py
50_Startups.csv.gz
파일을 성공적으로 읽었습니다. 아래 파일 내용의 처음 5개 행을 참조하십시오.
R&D Spend Administration Marketing Spend State Profit
0 165349.20 136897.80 471784.10 New York 192261.83
1 162597.70 151377.59 443898.53 California 191792.06
2 153441.51 101145.55 407934.54 Florida 191050.39
3 144372.41 118671.85 383199.62 New York 182901.99
4 142107.34 91391.77 366168.42 Florida 166187.94