Leia arquivos XLSX usando Python e Pandas
Pandas é uma biblioteca muito robusta e otimizada que ajuda a lidar com dados de forma eficiente, realizar operações sobre esses dados com facilidade e analisá-los com todos os tipos de plotagens e gráficos. Operações comuns como mesclar, concatenar e remodelar podem ser realizadas facilmente usando o pandas.
Pandas também suporta a leitura de arquivos e armazenamento de dados dentro dos arquivos em vários objetos, como matrizes e DataFrames
. Um desses arquivos é .xlsx
. Os arquivos .xlsx
são arquivos de planilha no formato XML aberto do Microsoft Excel compactados e baseados em XML. Este artigo falará sobre como ler arquivos .xlsx
usando o pandas.
Lendo arquivos .xlsx
usando pandas
em Python
Para ler arquivos .xlsx
usando pandas
, podemos usar a função read_excel()
. Esta função lê um arquivo excel em um pandas Dataframe
. E podemos usar esta função para ler arquivos xlsx
, xls
, xlsm
, xlsb
, odf
, ods
e odt
. Como os arquivos do Excel podem conter várias planilhas, esta função pode ler uma única e várias planilhas.
A função read_excel()
tem alguns parâmetros. Vamos discutir alguns dos principais.
io
: Este parâmetro pode serstr
,bytes
,ExcelFile
,xlrd.Book
,path object
oufile-like object
. É essencialmente o arquivo ou o objeto que deve ser lido. Também se pode passar um caminho de arquivo válido na forma de uma string para este parâmetro.sheet_name
: Este parâmetro pode serstr
,int
,list
ouNone
. O valor padrão é0
. Como os arquivos do Excel são compostos de planilhas, podemos especificar uma única planilha ou um monte de planilhas para ler. Não podemos apenas usar índices inteiros (2
,0
,[1, 3, 7]
), mas também nomes de string para especificar as folhas (Sheet1
,Sheet3
,["Sheet4", "Sheet5", "Sheet8"]
).header
: a linha que deve ser considerada como cabeçalho do arquivo excel. O valor padrão é0
porque a primeira linha geralmente é o cabeçalho e considera a indexação baseada em zero. Se não houver cabeçalho, defina-o comoNone
.names
: podemos especificar quais colunas desejamos ler do arquivo excel. Ele aceita uma lista de nomes de colunas. O valor padrão é nenhum". Como os nomes das colunas são encontrados dentro do cabeçalho, o arquivo deve ter um. Caso contrário, apenas definaheader = None
.
Agora vamos ver como podemos usar esta função para ler um arquivo .xlxs
. Consulte o código a seguir.
file_name = "my_file.xlsx" # File name
sheet_name = 3 # 4th sheet
header = 1 # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head()) # Prints first 5 rows from the top along with the header
print(df.tail()) # Prints first 5 rows from the bottom along with the header