Fonction Pandas DataFrame.describe()

Minahil Noor 30 janvier 2023
  1. Syntaxe de la fonction pandas.DataFrame.describe() :
  2. Exemples de codes : DataFrame.describe() Méthode pour trouver les statistiques d’une trame de données
  3. Exemples de codes : DataFrame.describe() Méthode pour trouver les statistiques de chaque colonne
  4. Exemples de codes : DataFrame.describe() Méthode pour trouver les statistiques des colonnes numériques
Fonction Pandas DataFrame.describe()

Python Pandas DataFrame.describe() function tells about the statistical data of a DataFrame.

Syntaxe de la fonction pandas.DataFrame.describe() :

DataFrame.describe(
    percentiles=None, include=None, exclude=None, datetime_is_numeric=False
)

Paramètres

percentiles Ce paramètre indique les percentiles à inclure dans la sortie. Toutes les valeurs doivent être comprises entre 0 et 1. La valeur par défaut est [.25, .5, .75], ce qui donne les 25ème, 50ème et 75ème percentiles.
include Il précise les types de données à inclure dans la sortie. Il y a trois options.
all : toutes les colonnes de l’entrée seront incluses dans la sortie.
A list-like of data types : limite les résultats aux types de données fournis.
None : Le résultat inclura toutes les colonnes numériques.
exclude Il précise les types de données à exclure de la sortie. Deux options s’offrent à vous.
Une liste de types de données : elle exclut du résultat les types de données fournis.
None : Le résultat n’exclura rien.
datetime_is_numeric Un paramètre booléen. Il indique s’il faut traiter les types de données date-heure comme des données numériques.

Retourne

Il renvoie le résumé des statistiques de la Series ou de la Dataframe passée.

Exemples de codes : DataFrame.describe() Méthode pour trouver les statistiques d’une trame de données

import pandas as pd

dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})

print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe()
print("Statistics are: \n")
print(dataframe1)

Production :

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

       Attendance  Obtained Marks
count    5.000000        5.000000
mean    82.600000       71.200000
std     15.773395       17.484279
min     60.000000       45.000000
25%     78.000000       64.000000
50%     80.000000       75.000000
75%     95.000000       82.000000
max    100.000000       90.000000

La fonction a renvoyé le résumé des statistiques de la base de données. Nous n’avons passé aucun paramètre, donc, la fonction a utilisé toutes les valeurs par défaut.

Exemples de codes : DataFrame.describe() Méthode pour trouver les statistiques de chaque colonne

Nous trouverons les statistiques de toutes les colonnes en utilisant le paramètre include.

import pandas as pd
dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})
print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe(include='all')
print("Statistics are: \n")
print(dataframe1)

Production :

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

        Attendance   Name  Obtained Marks
count     5.000000      5        5.000000
unique         NaN      5             NaN
top            NaN  Kevin             NaN
freq           NaN      1             NaN
mean     82.600000    NaN       71.200000
std      15.773395    NaN       17.484279
min      60.000000    NaN       45.000000
25%      78.000000    NaN       64.000000
50%      80.000000    NaN       75.000000
75%      95.000000    NaN       82.000000
max     100.000000    NaN       90.000000

La fonction a renvoyé le résumé des statistiques de toutes les colonnes de la trame de données.

Exemples de codes : DataFrame.describe() Méthode pour trouver les statistiques des colonnes numériques

Nous allons maintenant trouver les statistiques des colonnes numériques en utilisant uniquement le paramètre exclude.

import pandas as pd

dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})
print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe(exclude=[object])
print("Statistics are: \n")
print(dataframe1)

Production :

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

       Attendance  Obtained Marks
count    5.000000        5.000000
mean    82.600000       71.200000
std     15.773395       17.484279
min     60.000000       45.000000
25%     78.000000       64.000000
50%     80.000000       75.000000
75%     95.000000       82.000000
max    100.000000       90.000000

Nous avons exclu le type de données object.

Article connexe - Pandas DataFrame