OLS-Regression bei Pandas
Die OLS-Regression oder Ordinary Least Squares
-Regression ist im Wesentlichen eine Möglichkeit, den Wert der Koeffizienten linearer Regressionsgleichungen zu schätzen. Dieses Verfahren reduziert die Summe der quadrierten Differenzen zwischen den tatsächlichen und vorhergesagten Werten der Daten.
In diesem Artikel werden wir untersuchen, wie wir OLS-Regressionstechniken mit Hilfe des Pandas Data Frame in Python anwenden können.
Pandas-Datenrahmen
Die Pandas-Bibliothek in Python bietet verschiedene Tools und Technologien zum Bearbeiten und Analysieren von Daten. Datenrahmen sind ein solches Werkzeug.
Ein Datenrahmen in Pandas ist im Wesentlichen eine zweidimensionale Datenstruktur mit entsprechenden Labels. Es ist eine Struktur, die Daten in tabellarischer Form speichert.
Damit wir eine OLS-Regressionstechnik auf einem DataFrame
durchführen können, müssen wir zuerst einen Test DataFrame
erstellen. Der Weg, dies zu tun, ist in der Tat sehr einfach.
Zunächst behandeln wir die Installation aller unserer vorausgesetzten Bibliotheken. In diesem Fall sind es Pandas und statsmodels
.
pip install pandas
pip install statsmodels
Wir führen die obigen Befehle im Terminal unserer Wahl aus und es installiert die Module Pandas und statsmodels
, falls sie noch nicht installiert sind.
Das ist so ziemlich alles bei der Installation der Voraussetzungsfront. Jetzt können wir mit der Erstellung unseres Datenrahmens beginnen.
Der folgende Datenrahmen enthält Folgendes:
- Die Namen der Studenten.
- Die Länder, denen sie angehören.
- Ihre Noten in drei von 100 Fächern.
Beispielcode:
import pandas as pd
data = {
"Student_Name": ["Anil", "Suharwardy", "Fatina", "John", "Karen"],
"Country": ["India", "India", "Pakistan", "America", "America"],
"Biology": [68, 73, 87, 58, 78],
"Physics": [83, 53, 93, 87, 78],
"Chemistry": [78, 98, 89, 73, 87],
}
data_frame = pd.DataFrame(data=data)
print(data_frame)
Ausgang:
Es ist wichtig zu beachten, dass wir Daten mit acht oder mehr Werten verwenden müssen, um professionelle und genaue OLS-Regressionsergebnisse zu erhalten. Wir haben die Liste für diesen Artikel gekürzt, damit sie leichter zu verfolgen ist.
Führen Sie eine OLS-Regression auf Pandas DataFrame aus
Nachdem wir nun unseren Datenrahmen haben, wollen wir den Ansatz verstehen, dem wir folgen sollen. Unter Verwendung der OLS-Regressionstechniken und -methoden werden wir die Ergebnisse für die Noten der Schüler in Biologie anhand ihrer Noten in Physik und Chemie vorhersagen.
Wir werden das statsmodels
-Modul dieser Technik verwenden, um die OLS-Operationen auf unserem definierten Datenrahmen auszuführen. Sehen Sie sich den folgenden Code an, um zu sehen, wie wir dies erreichen.
import pandas as pd
import statsmodels.formula.api as sm
data = {
"Student_Name": ["Anil", "Suharwardy", "Fatina", "John", "Karen"],
"Country": ["India", "India", "Pakistan", "America", "America"],
"Biology": [68, 73, 87, 58, 78],
"Physics": [83, 53, 93, 87, 78],
"Chemistry": [78, 98, 89, 73, 87],
}
data_frame = pd.DataFrame(data=data)
response = sm.ols(formula="Biology~Physics+Chemistry", data=data_frame).fit()
print(response.summary())
Ausgang:
Wie bereits erwähnt, leiten wir eine Formel zur Vorhersage der Biologienoten ab, speisen sie in die ols()
-Methode ein und drucken später die Zusammenfassung der Ergebnisse aus.
So können wir die statsmodels
- und Pandas-Bibliotheken verwenden, um eine einfache OLS-Regressionsoperation für einen Pandas-Datenrahmen durchzuführen. Ich hoffe, Sie haben die Lektüre genossen!
I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.
LinkedIn