Python と Pandas を使用して XLSX ファイルを読む
Vaibhav Vaibhav
2022年4月12日
Pandas は非常に堅牢で最適化されたライブラリであり、データを効率的に処理し、そのデータに対して簡単に操作を実行し、あらゆる種類のプロットやグラフでデータを分析するのに役立ちます。Pandas を使用すると、マージ、連結、再形成などの一般的な操作を非常に簡単に実行できます。
Pandas は、ファイルの読み取りと、ファイル内のデータを配列や DataFrames
などのさまざまなオブジェクトに保存することもサポートしています。そのようなファイルの 1つが .xlsx
です。.xlsx
ファイルは、圧縮された XML ベースの Microsoft Excel OpenXML 形式のスプレッドシートファイルです。この記事では、Pandas を使用して .xlsx
ファイルを読み取る方法について説明します。
Python で pandas
を使用して .xlsx
ファイルを読み取る
pandas
を使用して .xlsx
ファイルを読み取るには、read_excel()
関数を使用できます。この関数は、Excel ファイルを pandas DataFrame
に読み込みます。また、この関数を使用して、xlsx
、xls
、xlsm
、xlsb
、odf
、ods
、および odt
ファイルを読み取ることができます。Excel ファイルには複数のシートを含めることができるため、この関数は 1つまたは複数のシートを読み取ることができます。
read_excel()
関数にはいくつかのパラメーターがあります。主なものについて説明します。
io
:このパラメーターは、str
、bytes
、ExcelFile
、xlrd.Book
、path オブジェクト
、またはファイルのようなオブジェクト
にすることができます。読み取る必要があるのは、基本的にファイルまたはオブジェクトです。このパラメータに文字列の形式で有効なファイルパスを渡すこともできます。sheet_name
:このパラメーターには、str
、int
、list
、またはNone
を指定できます。デフォルト値は0
です。Excel ファイルはシートで構成されているため、1 枚または複数のシートを指定して読み取ることができます。整数インデックス(2
、0
、[1, 3, 7]
)だけでなく、文字列名を使用してシートを指定することもできます(Sheet1
、Sheet3
、["Sheet4", "Sheet5", "Sheet8"]
)。header
:Excel ファイルのヘッダーと見なす必要のある行。最初の行は通常ヘッダーであり、ゼロベースのインデックス付けを考慮しているため、デフォルト値は0
です。ヘッダーがない場合は、None
に設定します。names
:Excel ファイルから読み取る列を指定できます。列名のリストを受け入れます。デフォルト値はNone
です。列名はヘッダー内にあるため、ファイルには 1つ必要です。それ以外の場合は、header = None
を設定するだけです。
ここで、この関数を使用して .xlxs
ファイルを読み取る方法を見てみましょう。次のコードを参照してください。
file_name = "my_file.xlsx" # File name
sheet_name = 3 # 4th sheet
header = 1 # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head()) # Prints first 5 rows from the top along with the header
print(df.tail()) # Prints first 5 rows from the bottom along with the header
著者: Vaibhav Vaibhav