Wie erhalte ich den Durchschnitt einer Spalte eines Pandas-DataFrame

Ahmed Waheed 30 Januar 2023
  1. df.mean() Methode zur Berechnung des Durchschnitts einer Pandas DataFrame-Spalte
  2. df.describe() Methode
Wie erhalte ich den Durchschnitt einer Spalte eines Pandas-DataFrame

Wenn wir mit großen Datensätzen arbeiten, müssen wir manchmal den Durchschnitt oder den Mittelwert einer Spalte nehmen. Sie haben zum Beispiel eine Notenliste von Studenten und möchten den Durchschnitt der Noten oder eine andere Spalte wissen. Im Folgenden sind die verschiedenen Möglichkeiten zur Erfüllung dieser Aufgabe aufgeführt.

  1. df.mean()
  2. df.describe()

In den nächsten Abschnitten werden wir denselben DataFrame wie folgt verwenden,

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)

Unten sehen Sie das Beispiel DataFrame.

     name  percentage  grade
0  Oliver          90     88
1   Harry          99     76
2  George          50     95
3    Noah          65     79

df.mean() Methode zur Berechnung des Durchschnitts einer Pandas DataFrame-Spalte

Nehmen wir die Spalte Mittelwert der Noten in unserem Datensatz.

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
mean_df = df["grade"].mean()
print(mean_df)

Folgendes wird ausgegeben.

84.5

Nehmen wir ein weiteres Beispiel und wenden wir die Funktion df.mean() auf den gesamten DataFrame an.

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
mean_df = df.mean()
print(mean_df)

Im obigen Beispiel geben wir den Spaltennamen nicht in der mean() Methode an. Die mean() Methode bestimmt automatisch, welche Spalten für die Anwendung der mean Funktion geeignet sind.

Das Folgende wird ausgegeben.

percentage    76.0
grade         84.5
dtype: float64

df.describe() Methode

Diese Methode erzeugt die Ausgabe einer vollständigen Statistik des Datensatzes. Sehen wir uns an, wie man sie verwendet.

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
print(df.describe())

Ausgabe:

       percentage      grade
count    4.000000   4.000000
mean    76.000000  84.500000
std     22.524061   8.660254
min     50.000000  76.000000
25%     61.250000  78.250000
50%     77.500000  83.500000
75%     92.250000  89.750000
max     99.000000  95.000000

Das Ergebnis der Methode df.describle() ist ein DataFrame, daher könnten Sie den Durchschnitt von percentage und grade erhalten, indem Sie sich auf den Spaltennamen und den Zeilennamen beziehen.

df.describe()["grade"]["mean"]
df.describe()["percentage"]["mean"]

df.describe() kann auch für bestimmte Spalten funktionieren. Lassen Sie uns diese Funktion auf die Spalte grade anwenden.

import pandas as pd

data = {
    "name": ["Oliver", "Harry", "George", "Noah"],
    "percentage": [90, 99, 50, 65],
    "grade": [88, 76, 95, 79],
}
df = pd.DataFrame(data)
print(df["grade"].describe())

Das Folgende wird ausgegeben.

count     4.000000
mean     84.500000
std       8.660254
min      76.000000
25%      78.250000
50%      83.500000
75%      89.750000
max      95.000000
Name: grade, dtype: float64

Das Ergebnis ist Series, wenn die Spalte angegeben wird. Wir könnten den Durchschnittswert erhalten, indem wir uns direkt auf mean beziehen.

df["grade"].describe()["mean"]