使用 Python 和 Pandas 讀取 XLSX 檔案
Vaibhav Vaibhav
2021年12月4日
Pandas 是一個非常強大和優化的庫,它有助於有效地處理資料,輕鬆地對該資料執行操作,並使用各種繪圖和圖形對其進行分析。使用 Pandas 可以非常輕鬆地執行諸如合併、連線和重塑等常見操作。
Pandas 還支援讀取檔案並將檔案中的資料儲存到各種物件中,例如陣列和 DataFrames
。一個這樣的檔案是 .xlsx
。.xlsx
檔案是 Microsoft Excel Open XML 格式電子表格檔案,這些檔案經過壓縮並基於 XML。本文將討論如何使用 Pandas 讀取 .xlsx
檔案。
在 Python 中使用 pandas
讀取 .xlsx
檔案
要使用 pandas
讀取 .xlsx
檔案,我們可以使用 read_excel()
函式。此函式將 excel 檔案讀入 pandas Dataframe
。並且,我們可以使用這個函式來讀取 xlsx
、xls
、xlsm
、xlsb
、odf
、ods
和 odt
檔案。由於 excel 檔案可以包含多個工作表,因此此功能可以讀取單個和多個工作表。
read_excel()
函式有幾個引數。我們將討論一些主要的。
io
:該引數可以是str
、bytes
、ExcelFile
、xlrd.Book
、path object
或file-like object
。它本質上是必須讀取的檔案或物件。還可以將字串形式的有效檔案路徑傳遞給此引數。sheet_name
:該引數可以是str
、int
、list
或None
。預設值為0
。由於 excel 檔案是由工作表組成的,我們可以指定要讀取的單個工作表或一堆工作表。我們不僅可以使用整數索引 (2
,0
,[1, 3, 7]
) 還可以使用字串名稱來指定工作表 (Sheet1
,Sheet3
,["Sheet4", "Sheet5", "Sheet8"]
)。header
:應被視為 Excel 檔案標題的行。預設值為0
,因為第一行通常是標題並考慮從零開始索引。如果沒有標題,請將其設定為None
。names
:我們可以指定我們希望從 Excel 檔案中讀取哪些列。它接受一個列名列表。預設值為None
。由於列名位於標題內,因此該檔案應該有一個。否則,只需設定header = None
。
現在讓我們看看如何使用這個函式來讀取 .xlxs
檔案。參考以下程式碼。
file_name = "my_file.xlsx" # File name
sheet_name = 3 # 4th sheet
header = 1 # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head()) # Prints first 5 rows from the top along with the header
print(df.tail()) # Prints first 5 rows from the bottom along with the header
作者: Vaibhav Vaibhav