Comment obtenir la moyenne d'une colonne d'un pandas DataFrame
Lorsque nous travaillons avec de grands ensembles de données, nous devons parfois prendre la moyenne ou la moyenne de la colonne. Par exemple, vous avez une liste de notation des étudiants et vous voulez connaître la moyenne des notes ou une autre colonne. Voici les différentes façons d’accomplir cette tâche.
Nous utiliserons le même DataFrame
dans les sections suivantes comme suit,
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
Ci-dessous, l’exemple DataFrame
.
name percentage grade
0 Oliver 90 88
1 Harry 99 76
2 George 50 95
3 Noah 65 79
Méthode df.mean()
pour calculer la moyenne d’une colonne Pandas DataFrame
Prenons la moyenne des colonnes de notes présentes dans notre jeu de données.
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
mean_df = df["grade"].mean()
print(mean_df)
Les éléments suivants seront sortis.
84.5
Prenons un autre exemple et appliquons la fonction df.mean()
à l’ensemble du DataFrame.
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
mean_df = df.mean()
print(mean_df)
Nous ne spécifions pas le nom de la colonne dans la méthode mean()
dans l’exemple ci-dessus. La méthode mean()
détermine automatiquement quelles colonnes sont éligibles pour l’application de la fonction mean
.
Les éléments suivants seront sortis.
percentage 76.0
grade 84.5
dtype: float64
Méthode df.describe()
Cette méthode crée la sortie d’une statistique complète de l’ensemble de données. Voyons comment l’utiliser.
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
print(df.describe())
Production:
percentage grade
count 4.000000 4.000000
mean 76.000000 84.500000
std 22.524061 8.660254
min 50.000000 76.000000
25% 61.250000 78.250000
50% 77.500000 83.500000
75% 92.250000 89.750000
max 99.000000 95.000000
Le résultat de la méthode df.describle()
est un DataFrame
, par conséquent, vous pouvez obtenir la moyenne de pourcentage
et de grade
en vous référant au nom de la colonne et au nom de la ligne.
df.describe()["grade"]["mean"]
df.describe()["percentage"]["mean"]
df.describe()
peut également fonctionner pour une colonne spécifique. Appliquons cette fonction sur la colonne grade
.
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
print(df["grade"].describe())
Les éléments suivants seront sortis.
count 4.000000
mean 84.500000
std 8.660254
min 76.000000
25% 78.250000
50% 83.500000
75% 89.750000
max 95.000000
Name: grade, dtype: float64
Le résultat est Series
lorsque la colonne est spécifiée. Nous pourrions obtenir la valeur moyenne en faisant directement référence à la mean
.
df["grade"].describe()["mean"]