Parquet ファイルを Pandas DataFrame に読み込む
現代のデータ サイエンスとデータ構造では、Parquet ファイルは、CSV ファイルよりも整理された情報を格納するための、最新化され改善された方法です。 この記事では、Parquet ファイルの性質と、それらを Python で Pandas DataFrame に読み込む方法について説明します。
寄木細工のファイル
Parquet ファイルは、列化されたデータ ファイル形式で情報を格納します。 これらのファイルは最新化され、効率が向上し、データの保存と取得のために整理されています。
また、Parquet ファイルは、関連するデータを直接読み取り、無関係なデータをスキップできるため、CSV ファイルよりも大きな利点があります。 この保存方法により、さまざまなデータの読み取りおよび取得プロセス中の待ち時間が大幅に短縮されます。
さらに、動画、音声、画像などのビッグ データの保存は、Parquet では問題になりません。
Parquet ファイルを Pandas DataFrame に読み込む
parquet ファイルを Pandas の DataFrame に読み込むには、一連の簡単な手順に従って、必要なインストールをカバーしてからコードに進む必要があります。
まず、システムに Python がインストールされていることを確認する必要があります。 以下のコマンドを使用して、インストールされている Python のバージョンを確認できます。
python --version
次のステップは、次のコマンドを実行して Pandas ライブラリをインストールするのと同じくらい簡単です (まだ持っていない場合)。
pip install pandas
これで、基本的なニーズがカバーされ、Pandas モジュールが Parquet ファイルを読み取るために使用できるエンジンが必要になります。 この場合、Apache Arrow を使用します。
次のコマンドを使用してインストールできます。
pip install pyarrow
これらはすべて、parquet ファイルを Pandas DataFrame に読み込むために必要な前提条件です。
寄木細工のファイルをデータ フレームに読み込むには、read_parquet()
メソッドが使用されます。 開発者の要件に応じて追加または使用できる 5つのパラメーターがあります。
構文:
pandas.read_parquet(
path,
engine="auto",
columns=None,
storage_options=None,
use_nullable_dtypes=False,
**kwargs
)
3つのエンジン オプションが利用可能であり、任意のエンジンを使用できることに注意することが重要です。
auto
pyarrow
fastparquet
前提条件と使用する方法について説明したので、ファイルを読み取るためのコードを作成できます。 寄木細工のファイルを読み取るためのコードは非常に単純で、比較的簡単です。
そのために必要なのは、parquet ファイルと (この記事では、最初に parquet ファイルを作成します) read_parquet()
メソッドだけです。
コード例:
import pandas as pd
df = pd.DataFrame(
{
"student": ["Alia", "Zoya", "Ali"],
"marks": [20, 10, 22],
}
)
df.to_parquet("student.parquet")
pd.read_parquet("student.parquet", engine="pyarrow")
出力:
これは、寄木細工のファイルをデータフレームの前部に読み込む全体のすべてでした。 ファイルを読み取ることができるようになったので、独自の要件に従って、さまざまなデータ分析手法と検索を引き続き実行できます。
I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.
LinkedIn