在 Pandas 中读取 Excel 多张工作表
- 在 Python 中使用 Pandas 从工作簿中读取多个 Excel 工作表
-
使用
read_Excel()
从 Pandas 工作簿中打开电子表格 -
在 Pandas 中使用
parse()
方法从工作簿中打开电子表格
Pandas 是用于数据科学和机器学习的著名 Python 库。这个库提供了许多关于数据分析、预测和操作的功能。
我们可以对提供的数据集执行许多操作。大多数时候,我们对包含数据集的 Excel 文件(也称为 xls 文件)或 CSV 文件(单个电子表格)执行分析。
我们可以从该文件加载单个工作表或多个 Excel 工作表。
在 Python 中使用 Pandas 从工作簿中读取多个 Excel 工作表
要使用 Pandas,我们应该首先使用以下命令安装它。
#Python 3.x
pip install pandas
此外,我们将在此处读取一个 Excel 文件(扩展名为 xls)。为此,我们还必须使用以下命令安装 xlrd
模块。
#Python 3.x
pip install xlrd
有时我们在同一个工作簿中有一个由多个电子表格组成的大型数据集。但我们只对该文件的某些特定电子表格感兴趣。
为此,我们必须从工作簿中打开特定的电子表格。我们可以在 Python 中使用 Pandas 轻松完成这项任务。
使用 read_Excel()
从 Pandas 工作簿中打开电子表格
首先,我们将使用 pd.ExcelFile('path_to_file.xls')
读取整个 Excel 文件。这里,pd
指的是 Pandas,我们将把 Excel 文件的路径作为参数传递给 ExcelFile()
的方法调用。
在下面的代码中,我们导入了 Pandas 包。然后我们读取一个 Excel 文件 dataset.xls
,其中包含两个电子表格 iris
和 customer_churn
。
我们正在使用 Jupyter
笔记本,因此我们已将此数据集上传到我们的主目录。xls
对象现在可以访问电子表格。
如果我们只想读取 iris
电子表格,我们将再次调用 read_excel()
方法。在第一个参数中,我们将传递 xls
,在第二个参数中,我们将写入要从该 xls 文件中读取的特定电子表格的名称。
然后我们使用 df.head()
显示了该电子表格的前五行。我们可以通过在 read_excel()
中指定该电子表格的名称,以相同的方式从工作簿加载多个电子表格。
# Python 3.x
import pandas as pd
xls = pd.ExcelFile("dataset.xls")
df = pd.read_excel(xls, "iris")
df.head()
print(df)
输出:
在 Pandas 中使用 parse()
方法从工作簿中打开电子表格
从工作簿中读取单个电子表格的另一种方法是加载 xls 文件,然后使用 xls
对象调用 parse()
方法。作为 parse()
方法的参数,我们将指定电子表格的索引号。
整数是指该 xls 文件中的电子表格。0
代表第一个电子表格,1
代表第二个,依此类推,就像数组索引一样。
在这里,我们加载了 iris
电子表格,这是我们工作簿的第二个电子表格,因此我们将传递 1
作为索引。此代码的输出与上述相同。
# Python 3.x
import pandas as pd
xls = pd.ExcelFile("dataset.xls")
df = xls.parse(1)
df.head()
print(df)
输出:
I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.
LinkedIn