Pandas で GZ ファイルを読み取る
あなたが Python マニアで、データの分析と処理に Python を使用している場合は、Python を使用して gz
ファイルを Pandas データ フレームとして読み取ることに興味があるかもしれません。 このチュートリアルでは、pandas
という Python ライブラリを使用して、gz
ファイルをデータ フレームとして読み取る方法について説明します。
Pandas で GZ ファイルを読み取る
gz
は、標準の GNU zip (gzip
) 圧縮アルゴリズムによって圧縮された圧縮ファイルのファイル拡張子です。 Linux および Unix オペレーティング システムの圧縮形式として広く使用されています。 たとえば、電子メール用のファイルがある場合、gz
ファイル形式を使用してファイルをより小さなファイルに圧縮できます。
大きなデータ ファイルは、圧縮アルゴリズムを使用して圧縮され、このデータを使用します。 ユーザーは、整理された構造でコンテンツを読む必要があります。
Python ライブラリ; Pandas にはデータ フレームと呼ばれるデータ型があり、これは Python と NumPy
エコシステムの不可欠な部分であり、テーブルやスプレッドシートよりも高速で使いやすく強力です。
データ フレームは、2 次元の、サイズ変更可能な、異種の可能性のある表形式のデータを表すために使用されるデータ構造です。 ラベル付きの軸 (行と列) が含まれています。
算術演算は、行ラベルと列ラベルの両方に配置されます。 これは、シリーズ オブジェクト、スプレッドシート、または SQL テーブルの辞書のようなコンテナーです。
そのため、Python を使用して gz
ファイルを Pandas データ フレームとして読み取ることに関心がある場合は、.gz
ファイルを直接読み取ることができないことに注意してください。Python を使用して、ファイルのデータを整理された形式に整理する必要があります。
では、.gz
ファイルの読み方は? そのためには、以下の手順に従う必要があります。
-
gz
ファイルの絶対パスと、ファイル読み取り用の後続の属性を記述します。 -
pandas
モジュールのread_csv()
メソッドを使用して、パラメーターを渡します。 -
pandas
DataFrame
を使用して、gz
ファイルのデータを表示および操作します。
Pandas データ フレームを使用して gz
ファイルを読み取る
CSV ファイル 50_Startups.csv
の gz
圧縮ファイルを読みたいとします。
path_gzip_file = "F:/50_Startups.csv.gz"
次のコードを実行してみましょう。
コード例 (demo.py
に保存):
import pandas as pd
path_gzip_file = "F:/50_Startups.csv.gz"
gzip_file_data_frame = pd.read_csv(
path_gzip_file, compression="gzip", header=0, sep=",", quotechar='"'
)
print(gzip_file_data_frame.head(5))
まず、pandas
モジュールをインポートし、それを pd
としてエイリアスして、データ フレームを操作し、ファイルを読み取ります。 次に、gz
ファイルの絶対パスを指定します。
その後、pandas
モジュールの pd.read_csv()
メソッドを呼び出してパラメーターを渡します。 pd.read_csv
は複数のパラメーターを取り、pandas
データ フレームを返します。
以下に示す 5つのパラメーターを渡します。
- 最初のものは文字列
path
オブジェクトです。 - 2 番目は、
compression
タイプの文字列です (この場合はgzip
)。 - 3 番目は整数
header
(既存の名前を置き換えることができるように明示的にheader=0
を渡します。ヘッダーは、列の複数のインデックスの行位置を指定する整数のリストにすることができます。[0,1,3]
)。 - 4 番目の文字列は
delimiter
(この場合は,
) です。 - 5 番目は
quotechar
で、オプションの長さ1
文字列です (引用された項目の開始と終了を示すために使用される文字。引用された項目には区切り文字を含めることができ、無視されます。)
最後に、データ フレームを head()
関数でチェーンします。この関数は、1つのパラメーター n
を取り、最初の n
個のデータ行を返し、データを出力します。
ここで、上記のコードを次のように実行します。
PS F:\> & C:/Python310/python.exe f:/demo.py
50_Startups.csv.gz
ファイルが正常に読み込まれました。 以下のファイル コンテンツの最初の 5 行を参照してください。
R&D Spend Administration Marketing Spend State Profit
0 165349.20 136897.80 471784.10 New York 192261.83
1 162597.70 151377.59 443898.53 California 191792.06
2 153441.51 101145.55 407934.54 Florida 191050.39
3 144372.41 118671.85 383199.62 New York 182901.99
4 142107.34 91391.77 366168.42 Florida 166187.94