使用 Python 和 Pandas 读取 XLSX 文件
Vaibhav Vaibhav
2021年12月4日
Pandas 是一个非常强大和优化的库,它有助于有效地处理数据,轻松地对该数据执行操作,并使用各种绘图和图形对其进行分析。使用 Pandas 可以非常轻松地执行诸如合并、连接和重塑等常见操作。
Pandas 还支持读取文件并将文件中的数据存储到各种对象中,例如数组和 DataFrames
。一个这样的文件是 .xlsx
。.xlsx
文件是 Microsoft Excel Open XML 格式电子表格文件,这些文件经过压缩并基于 XML。本文将讨论如何使用 Pandas 读取 .xlsx
文件。
在 Python 中使用 pandas
读取 .xlsx
文件
要使用 pandas
读取 .xlsx
文件,我们可以使用 read_excel()
函数。此函数将 excel 文件读入 pandas Dataframe
。并且,我们可以使用这个函数来读取 xlsx
、xls
、xlsm
、xlsb
、odf
、ods
和 odt
文件。由于 excel 文件可以包含多个工作表,因此此功能可以读取单个和多个工作表。
read_excel()
函数有几个参数。我们将讨论一些主要的。
io
:该参数可以是str
、bytes
、ExcelFile
、xlrd.Book
、path object
或file-like object
。它本质上是必须读取的文件或对象。还可以将字符串形式的有效文件路径传递给此参数。sheet_name
:该参数可以是str
、int
、list
或None
。默认值为0
。由于 excel 文件是由工作表组成的,我们可以指定要读取的单个工作表或一堆工作表。我们不仅可以使用整数索引 (2
,0
,[1, 3, 7]
) 还可以使用字符串名称来指定工作表 (Sheet1
,Sheet3
,["Sheet4", "Sheet5", "Sheet8"]
)。header
:应被视为 Excel 文件标题的行。默认值为0
,因为第一行通常是标题并考虑从零开始索引。如果没有标题,请将其设置为None
。names
:我们可以指定我们希望从 Excel 文件中读取哪些列。它接受一个列名列表。默认值为None
。由于列名位于标题内,因此该文件应该有一个。否则,只需设置header = None
。
现在让我们看看如何使用这个函数来读取 .xlxs
文件。参考以下代码。
file_name = "my_file.xlsx" # File name
sheet_name = 3 # 4th sheet
header = 1 # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head()) # Prints first 5 rows from the top along with the header
print(df.tail()) # Prints first 5 rows from the bottom along with the header
作者: Vaibhav Vaibhav