Wie erhalte ich den Durchschnitt einer Spalte eines Pandas-DataFrame
-
df.mean()
Methode zur Berechnung des Durchschnitts einer Pandas DataFrame-Spalte -
df.describe()
Methode
Wenn wir mit großen Datensätzen arbeiten, müssen wir manchmal den Durchschnitt oder den Mittelwert einer Spalte nehmen. Sie haben zum Beispiel eine Notenliste von Studenten und möchten den Durchschnitt der Noten oder eine andere Spalte wissen. Im Folgenden sind die verschiedenen Möglichkeiten zur Erfüllung dieser Aufgabe aufgeführt.
In den nächsten Abschnitten werden wir denselben DataFrame
wie folgt verwenden,
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
Unten sehen Sie das Beispiel DataFrame
.
name percentage grade
0 Oliver 90 88
1 Harry 99 76
2 George 50 95
3 Noah 65 79
df.mean()
Methode zur Berechnung des Durchschnitts einer Pandas DataFrame-Spalte
Nehmen wir die Spalte Mittelwert der Noten in unserem Datensatz.
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
mean_df = df["grade"].mean()
print(mean_df)
Folgendes wird ausgegeben.
84.5
Nehmen wir ein weiteres Beispiel und wenden wir die Funktion df.mean()
auf den gesamten DataFrame an.
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
mean_df = df.mean()
print(mean_df)
Im obigen Beispiel geben wir den Spaltennamen nicht in der mean()
Methode an. Die mean()
Methode bestimmt automatisch, welche Spalten für die Anwendung der mean
Funktion geeignet sind.
Das Folgende wird ausgegeben.
percentage 76.0
grade 84.5
dtype: float64
df.describe()
Methode
Diese Methode erzeugt die Ausgabe einer vollständigen Statistik des Datensatzes. Sehen wir uns an, wie man sie verwendet.
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
print(df.describe())
Ausgabe:
percentage grade
count 4.000000 4.000000
mean 76.000000 84.500000
std 22.524061 8.660254
min 50.000000 76.000000
25% 61.250000 78.250000
50% 77.500000 83.500000
75% 92.250000 89.750000
max 99.000000 95.000000
Das Ergebnis der Methode df.describle()
ist ein DataFrame
, daher könnten Sie den Durchschnitt von percentage
und grade
erhalten, indem Sie sich auf den Spaltennamen und den Zeilennamen beziehen.
df.describe()["grade"]["mean"]
df.describe()["percentage"]["mean"]
df.describe()
kann auch für bestimmte Spalten funktionieren. Lassen Sie uns diese Funktion auf die Spalte grade
anwenden.
import pandas as pd
data = {
"name": ["Oliver", "Harry", "George", "Noah"],
"percentage": [90, 99, 50, 65],
"grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
print(df["grade"].describe())
Das Folgende wird ausgegeben.
count 4.000000
mean 84.500000
std 8.660254
min 76.000000
25% 78.250000
50% 83.500000
75% 89.750000
max 95.000000
Name: grade, dtype: float64
Das Ergebnis ist Series
, wenn die Spalte angegeben wird. Wir könnten den Durchschnittswert erhalten, indem wir uns direkt auf mean
beziehen.
df["grade"].describe()["mean"]