Regresión OLS en Pandas
La regresión OLS, o regresión de Mínimos cuadrados ordinarios
, es esencialmente una forma de estimar el valor de los coeficientes de las ecuaciones de regresión lineal. Este método reduce la suma de las diferencias al cuadrado entre los valores reales y predichos de los datos.
En este artículo, exploraremos cómo podemos aplicar técnicas de regresión OLS con la ayuda de Pandas Data Frame en Python.
Marcos de datos de pandas
La biblioteca Pandas en Python proporciona varias herramientas y tecnologías para manipular y analizar datos. Los marcos de datos son una de esas herramientas.
Un marco de datos en Pandas es esencialmente una estructura de datos bidimensional con las etiquetas correspondientes. Es una estructura que almacena datos en forma tabular.
Para que podamos realizar una técnica de regresión OLS en un DataFrame
, primero necesitaremos crear un DataFrame
de prueba. La forma de hacerlo es muy sencilla.
Primero, cubrimos la instalación de todas nuestras bibliotecas de requisitos previos. En este caso se trata de Pandas y statsmodels
.
terminalCopypip install pandas
terminalCopypip install statsmodels
Ejecutamos los comandos anteriores en la terminal de nuestra elección, e instalará los módulos Pandas y statsmodels
si aún no están instalados.
Eso es prácticamente todo en la instalación del frente de requisitos previos. Ahora podemos comenzar a crear nuestro marco de datos.
El siguiente marco de datos contiene lo siguiente:
- Los nombres de los estudiantes.
- Los países a los que pertenecen.
- Sus calificaciones en tres materias de 100.
Código de ejemplo:
pythonCopyimport pandas as pd
data = {
"Student_Name": ["Anil", "Suharwardy", "Fatina", "John", "Karen"],
"Country": ["India", "India", "Pakistan", "America", "America"],
"Biology": [68, 73, 87, 58, 78],
"Physics": [83, 53, 93, 87, 78],
"Chemistry": [78, 98, 89, 73, 87],
}
data_frame = pd.DataFrame(data=data)
print(data_frame)
Producción:
Es importante tener en cuenta que debemos usar datos con ocho o más valores para obtener resultados de regresión OLS profesionales y precisos. Acortamos la lista de este artículo para que sea más fácil de seguir.
Ejecute una regresión OLS en Pandas DataFrame
Ahora que tenemos nuestro marco de datos, comprendamos el enfoque que debemos seguir. Usando las técnicas y métodos de regresión OLS, estaremos prediciendo los resultados de las calificaciones de los estudiantes en Biología usando sus calificaciones en Física y Química.
Usaremos el módulo statsmodels
de esta técnica para realizar las operaciones OLS en nuestro marco de datos definido. Mire el código a continuación para observar cómo logramos esto.
pythonCopyimport pandas as pd
import statsmodels.formula.api as sm
data = {
"Student_Name": ["Anil", "Suharwardy", "Fatina", "John", "Karen"],
"Country": ["India", "India", "Pakistan", "America", "America"],
"Biology": [68, 73, 87, 58, 78],
"Physics": [83, 53, 93, 87, 78],
"Chemistry": [78, 98, 89, 73, 87],
}
data_frame = pd.DataFrame(data=data)
response = sm.ols(formula="Biology~Physics+Chemistry", data=data_frame).fit()
print(response.summary())
Producción:
Como se observa, derivamos una fórmula para predecir las marcas de Biología, la alimentamos al método ols()
y luego imprimimos el resumen de los resultados.
Así es como podemos usar las bibliotecas statsmodels
y Pandas para realizar una operación de regresión OLS sencilla en un marco de datos de Pandas. ¡Espero que hayas disfrutado la lectura!
I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.
LinkedIn