Lire les fichiers XLSX en utilisant Python et Pandas

Vaibhav Vaibhav 4 décembre 2021
Lire les fichiers XLSX en utilisant Python et Pandas

Pandas est une bibliothèque très robuste et optimisée qui permet de gérer efficacement les données, d’effectuer facilement des opérations sur ces données et de les analyser avec toutes sortes de tracés et de graphiques. Les opérations courantes telles que la fusion, la concaténation et le remodelage peuvent être effectuées très facilement à l’aide de pandas.

Pandas prend également en charge la lecture de fichiers et le stockage des données à l’intérieur des fichiers dans divers objets tels que des tableaux et des DataFrames. Un de ces fichiers est .xlsx. Les fichiers .xlsx sont des fichiers de feuille de calcul au format Microsoft Excel Open XML qui sont compressés et basés sur XML. Cet article expliquera comment lire les fichiers .xlsx à l’aide de pandas.

Lecture de fichiers .xlsx à l’aide de pandas en Python

Pour lire les fichiers .xlsx à l’aide de pandas, on peut utiliser la fonction read_excel(). Cette fonction lit un fichier excel dans un pandas Dataframe. Et, nous pouvons utiliser cette fonction pour lire les fichiers xlsx, xls, xlsm, xlsb, odf, ods et odt. Étant donné que les fichiers Excel peuvent contenir plusieurs feuilles, cette fonction peut lire une ou plusieurs feuilles.

La fonction read_excel() a quelques paramètres. Nous allons discuter de quelques-uns des principaux.

  • io : Ce paramètre peut être str, bytes, ExcelFile, xlrd.Book, path object, ou file-like object. C’est essentiellement le fichier ou l’objet qui doit être lu. On peut également passer un chemin de fichier valide sous forme de chaîne à ce paramètre.
  • sheet_name : Ce paramètre peut être str, int, list, ou None. La valeur par défaut est 0. Étant donné que les fichiers Excel sont constitués de feuilles, nous pouvons spécifier une seule feuille ou un groupe de feuilles à lire. On peut non seulement utiliser des index entiers (2, 0, [1, 3, 7]) mais aussi des noms de chaînes pour spécifier les feuilles (Sheet1, Sheet3, ["Sheet4", "Sheet5", "Sheet8"]).
  • header : La ligne qui doit être considérée comme l’en-tête du fichier excel. La valeur par défaut est 0 car la première ligne est généralement l’en-tête et considère l’indexation de base zéro. S’il n’y a pas d’en-tête, définissez-le sur None.
  • names : On peut spécifier quelles colonnes on souhaite lire à partir du fichier excel. Il accepte une liste de noms de colonnes. La valeur par défaut est None. Étant donné que les noms de colonnes se trouvent à l’intérieur de l’en-tête, le fichier doit en avoir un. Sinon, définissez simplement header = None.

Voyons maintenant comment utiliser cette fonction pour lire un fichier .xlxs. Référez-vous au code suivant.

file_name = "my_file.xlsx"  # File name
sheet_name = 3  # 4th sheet
header = 1  # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head())  # Prints first 5 rows from the top along with the header
print(df.tail())  # Prints first 5 rows from the bottom along with the header
Vaibhav Vaibhav avatar Vaibhav Vaibhav avatar

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.

Article connexe - Python Excel