Pandas DataFrame.describe() Funktion

Minahil Noor 30 Januar 2023
  1. Syntax von pandas.DataFrame.describe():
  2. Beispiel-Codes: DataFrame.describe() Methode zum Ermitteln der Statistik eines DataFrame
  3. Beispiel-Codes: DataFrame.describe() Methode zum Ermitteln der Statistik jeder Spalte
  4. Beispiel-Codes: Methode DataFrame.describe() zum Ermitteln der Statistik numerischer Spalten
Pandas DataFrame.describe() Funktion

Die Python Pandas DataFrame.describe() Funktion gibt Auskunft über die statistischen Daten eines DataFrame.

Syntax von pandas.DataFrame.describe():

DataFrame.describe(
    percentiles=None, include=None, exclude=None, datetime_is_numeric=False
)

Parameter

percentiles Dieser Parameter gibt die Perzentile an, die in der Ausgabe enthalten sein sollen. Alle Werte sollten zwischen 0 und 1 liegen. Die Vorgabe ist [.25, .5, .75], die das 25., 50. und 75. Perzentil ausgibt.
include Er gibt an, welche Datentypen in die Ausgabe einbezogen werden sollen. Es hat drei Optionen.
all: Alle Spalten der Eingabe werden in die Ausgabe einbezogen.
Eine Liste von Datentypen: schränkt die Ergebnisse auf die angegebenen Datentypen ein.
None: Das Ergebnis wird alle numerischen Spalten enthalten.
exclude Es gibt an, welche Datentypen von der Ausgabe ausgeschlossen werden sollen. Es hat zwei Optionen.
Eine listenartige Auflistung von Datentypen: Schließt die angegebenen Datentypen vom Ergebnis aus.
None: Das Ergebnis schließt nichts aus.
datetime_is_numeric Ein boolescher Parameter. Er gibt an, ob Datetime-Datentypen als numerisch behandelt werden sollen.

Zurück

Gibt die Zusammenfassung der Statistik der übergebenen Series oder des Dataframe zurück.

Beispiel-Codes: DataFrame.describe() Methode zum Ermitteln der Statistik eines DataFrame

import pandas as pd

dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})

print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe()
print("Statistics are: \n")
print(dataframe1)

Ausgabe:

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

       Attendance  Obtained Marks
count    5.000000        5.000000
mean    82.600000       71.200000
std     15.773395       17.484279
min     60.000000       45.000000
25%     78.000000       64.000000
50%     80.000000       75.000000
75%     95.000000       82.000000
max    100.000000       90.000000

Die Funktion hat die Zusammenfassung der Statistik des DataFrame zurückgegeben. Wir haben keine Parameter übergeben, daher hat die Funktion alle Standardwerte verwendet.

Beispiel-Codes: DataFrame.describe() Methode zum Ermitteln der Statistik jeder Spalte

Wir werden die Statistiken aller Spalten mit Hilfe des Parameters include ermitteln.

import pandas as pd
dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})
print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe(include='all')
print("Statistics are: \n")
print(dataframe1)

Ausgabe:

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

        Attendance   Name  Obtained Marks
count     5.000000      5        5.000000
unique         NaN      5             NaN
top            NaN  Kevin             NaN
freq           NaN      1             NaN
mean     82.600000    NaN       71.200000
std      15.773395    NaN       17.484279
min      60.000000    NaN       45.000000
25%      78.000000    NaN       64.000000
50%      80.000000    NaN       75.000000
75%      95.000000    NaN       82.000000
max     100.000000    NaN       90.000000

Die Funktion hat die Zusammenfassung der Statistiken aller Spalten des DataFrame zurückgegeben.

Beispiel-Codes: Methode DataFrame.describe() zum Ermitteln der Statistik numerischer Spalten

Jetzt werden wir nur die Statistiken der numerischen Spalten finden, indem wir den Parameter exclude verwenden.

import pandas as pd

dataframe=pd.DataFrame({'Attendance': {0: 60, 1: 100, 2: 80,3: 78,4: 95},
                        'Name': {0: 'Olivia', 1: 'John', 2: 'Laura',3: 'Ben',4: 'Kevin'},
                        'Obtained Marks': {0: 90, 1: 75, 2: 82, 3: 64, 4: 45}})
print("The Original Data frame is: \n")
print(dataframe)

dataframe1 = dataframe.describe(exclude=[object])
print("Statistics are: \n")
print(dataframe1)

Ausgabe:

The Original Data frame is: 

   Attendance    Name  Obtained Marks
0          60  Olivia              90
1         100    John              75
2          80   Laura              82
3          78     Ben              64
4          95   Kevin              45
Statistics are: 

       Attendance  Obtained Marks
count    5.000000        5.000000
mean    82.600000       71.200000
std     15.773395       17.484279
min     60.000000       45.000000
25%     78.000000       64.000000
50%     80.000000       75.000000
75%     95.000000       82.000000
max    100.000000       90.000000

Wir haben den Datentyp object ausgeschlossen.

Verwandter Artikel - Pandas DataFrame