Lire les fichiers XLSX en utilisant Python et Pandas
Pandas est une bibliothèque très robuste et optimisée qui permet de gérer efficacement les données, d’effectuer facilement des opérations sur ces données et de les analyser avec toutes sortes de tracés et de graphiques. Les opérations courantes telles que la fusion, la concaténation et le remodelage peuvent être effectuées très facilement à l’aide de pandas.
Pandas prend également en charge la lecture de fichiers et le stockage des données à l’intérieur des fichiers dans divers objets tels que des tableaux et des DataFrames
. Un de ces fichiers est .xlsx
. Les fichiers .xlsx
sont des fichiers de feuille de calcul au format Microsoft Excel Open XML qui sont compressés et basés sur XML. Cet article expliquera comment lire les fichiers .xlsx
à l’aide de pandas.
Lecture de fichiers .xlsx
à l’aide de pandas
en Python
Pour lire les fichiers .xlsx
à l’aide de pandas
, on peut utiliser la fonction read_excel()
. Cette fonction lit un fichier excel dans un pandas Dataframe
. Et, nous pouvons utiliser cette fonction pour lire les fichiers xlsx
, xls
, xlsm
, xlsb
, odf
, ods
et odt
. Étant donné que les fichiers Excel peuvent contenir plusieurs feuilles, cette fonction peut lire une ou plusieurs feuilles.
La fonction read_excel()
a quelques paramètres. Nous allons discuter de quelques-uns des principaux.
io
: Ce paramètre peut êtrestr
,bytes
,ExcelFile
,xlrd.Book
,path object
, oufile-like object
. C’est essentiellement le fichier ou l’objet qui doit être lu. On peut également passer un chemin de fichier valide sous forme de chaîne à ce paramètre.sheet_name
: Ce paramètre peut êtrestr
,int
,list
, ouNone
. La valeur par défaut est0
. Étant donné que les fichiers Excel sont constitués de feuilles, nous pouvons spécifier une seule feuille ou un groupe de feuilles à lire. On peut non seulement utiliser des index entiers (2
,0
,[1, 3, 7]
) mais aussi des noms de chaînes pour spécifier les feuilles (Sheet1
,Sheet3
,["Sheet4", "Sheet5", "Sheet8"]
).header
: La ligne qui doit être considérée comme l’en-tête du fichier excel. La valeur par défaut est0
car la première ligne est généralement l’en-tête et considère l’indexation de base zéro. S’il n’y a pas d’en-tête, définissez-le surNone
.names
: On peut spécifier quelles colonnes on souhaite lire à partir du fichier excel. Il accepte une liste de noms de colonnes. La valeur par défaut estNone
. Étant donné que les noms de colonnes se trouvent à l’intérieur de l’en-tête, le fichier doit en avoir un. Sinon, définissez simplementheader = None
.
Voyons maintenant comment utiliser cette fonction pour lire un fichier .xlxs
. Référez-vous au code suivant.
file_name = "my_file.xlsx" # File name
sheet_name = 3 # 4th sheet
header = 1 # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head()) # Prints first 5 rows from the top along with the header
print(df.tail()) # Prints first 5 rows from the bottom along with the header