Pandas DataFrame으로 Parquet 파일 읽기
최신 데이터 과학 및 데이터 구조에서 Parquet 파일은 CSV 파일보다 더 체계적으로 정보를 저장하는 현대화되고 개선된 방식입니다. 이 기사에서는 Parquet 파일의 특성과 Python에서 Pandas DataFrame으로 읽어들이는 방법을 살펴봅니다.
쪽모이 세공 파일
Parquet 파일은 열화된 데이터 파일 형식으로 정보를 저장합니다. 이러한 파일은 현대화되고 보다 효율적이며 데이터 저장 및 검색을 위해 구성됩니다.
또한 Parquet 파일은 관련 데이터를 직접 읽을 수 있고 관련 없는 데이터를 건너뛸 수 있으므로 CSV 파일에 비해 상당한 이점이 있습니다. 이러한 저장 방식은 다양한 데이터 읽기 및 검색 프로세스 동안 대기 시간을 크게 줄입니다.
또한 비디오, 오디오, 이미지 등과 같은 빅 데이터를 저장하는 것은 Parquet에서 문제가 되지 않습니다.
Pandas DataFrame으로 Parquet 파일 읽기
Pandas에서 Parquet 파일을 DataFrame으로 읽으려면 코드로 이동하기 전에 필요한 설치를 다루는 일련의 간단한 단계를 따르기만 하면 됩니다.
먼저 시스템에 Python이 설치되어 있는지 확인해야 합니다. 아래 명령을 사용하여 설치된 Python 버전을 확인할 수 있습니다.
python --version
다음 단계는 Pandas 라이브러리가 아직 없는 경우 다음 명령을 실행하여 Pandas 라이브러리를 설치하는 것만큼이나 간단합니다.
pip install pandas
이제 기본 요구 사항을 충족했으며 Pandas 모듈이 Parquet 파일을 읽는 데 사용할 수 있는 엔진이 필요합니다. 이 경우 Apache Arrow를 사용합니다.
다음 명령을 사용하여 설치할 수 있습니다.
pip install pyarrow
Pandas DataFrame으로 쪽모이 세공 파일을 읽는 데 필요한 모든 전제 조건이었습니다.
쪽모이 세공 파일을 데이터 프레임으로 읽기 위해 read_parquet()
메서드가 사용됩니다. 개발자의 요구 사항에 따라 추가하거나 사용할 수 있는 5개의 매개 변수가 있습니다.
통사론:
pandas.read_parquet(
path,
engine="auto",
columns=None,
storage_options=None,
use_nullable_dtypes=False,
**kwargs
)
세 가지 엔진 옵션을 사용할 수 있으며 모든 엔진을 사용할 수 있다는 점에 유의해야 합니다.
auto
pyarrow
fastparquet
이제 전제 조건과 사용할 메서드를 다루었으므로 파일을 읽기 위한 코드를 공식화할 수 있습니다. 쪽모이 세공 파일을 읽기 위한 코드는 매우 간단하고 비교적 간단합니다.
이를 위해서는 쪽모이 세공 파일과 (이 기사에서는 먼저 쪽모이 세공 파일을 생성할 것임) read_parquet()
메서드만 필요합니다.
예제 코드:
import pandas as pd
df = pd.DataFrame(
{
"student": ["Alia", "Zoya", "Ali"],
"marks": [20, 10, 22],
}
)
df.to_parquet("student.parquet")
pd.read_parquet("student.parquet", engine="pyarrow")
출력:
전체적으로 마루 파일을 데이터 프레임 전면으로 읽는 것이 전부였습니다. 이제 파일을 읽을 수 있으므로 고유한 요구 사항에 따라 다양한 데이터 분석 기술 및 검색을 계속 수행할 수 있습니다.
I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.
LinkedIn