Parcela Seaborn Box
Se pueden crear diferentes gráficos y diagramas estadísticos utilizando el módulo seaborn en Python. Podemos crear un diagrama de caja usando la función seaborn.boxplot()
.
Los analistas y estadísticos utilizan con frecuencia un diagrama de caja para representar datos en diferentes niveles o categorías. La figura del diagrama de caja puede transmitir muchos valores estadísticos. La siguiente figura explica esto.
La función boxplot()
funciona de manera eficiente al trazar valores categóricos de un conjunto de datos y también puede trabajar con listas únicas o vectores de array. Es muy similar a la trama del violín.
En el siguiente ejemplo, trazamos un diagrama de caja para una sola distribución para tener una idea de la figura final.
import random
import numpy as np
import seaborn as sns
n = random.sample(range(0, 50), 30)
arr = np.array(n)
sns.boxplot(n)
También podemos trazar un diagrama de dispersión sobre el diagrama de caja. Le dará una mejor comprensión de la distribución trazada y la figura final.
Usaremos la función seaborn.stripplot()
para trazar el gráfico de dispersión. Por ejemplo,
import random
import numpy as np
import seaborn as sns
n = random.sample(range(0, 50), 30)
arr = np.array(n)
sns.boxplot(n)
sns.stripplot(n, color="red")
El diagrama de caja se puede utilizar de manera eficiente para trazar las variables categóricas y simplificar su comparación. En el siguiente código, trazaremos el diagrama de caja para múltiples categorías.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.DataFrame(
{
"Quantity": [5, 6, 7, 8, 5, 6, 7, 8, 5, 6, 7, 8, 5, 6, 7, 8],
"Price": [9, 10, 15, 16, 13, 14, 15, 18, 11, 12, 14, 15, 16, 17, 18, 19],
"Day": [1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2],
"Product": [
"A",
"A",
"A",
"A",
"B",
"B",
"B",
"B",
"A",
"A",
"A",
"A",
"B",
"B",
"B",
"B",
],
}
)
sns.boxplot(data=df, y="Price", x="Quantity")
Observe cómo en el conjunto de datos anterior, podemos comparar fácilmente el precio en diferentes cantidades. También podemos agregar el parámetro hue
y establecer su valor como la variable Product
. De esta forma, podremos trazar diferentes cajas para diferentes productos.
Podemos usar matplotlib.pyplot.ylim()
y matplotlib.pyplot.xlim()
para establecer los límites en x y el eje y del gráfico.
Podemos usar muchos más parámetros para modificar el gráfico final. El parámetro linewidth
se puede utilizar para aumentar el grosor de los bordes del diagrama de caja. Podemos personalizar los colores para diferentes categorías usando el parámetro palette
. La orientación se puede cambiar mediante el argumento orient
. Hay muchos más argumentos de este tipo que se pueden utilizar.
Consulte el código a continuación para comprender la aplicación de algunos de estos parámetros.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.DataFrame(
{
"Quantity": [5, 6, 7, 8, 5, 6, 7, 8, 5, 6, 7, 8, 5, 6, 7, 8],
"Price": [9, 10, 15, 16, 13, 14, 15, 18, 11, 12, 14, 15, 16, 17, 18, 19],
"Day": [1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2],
"Product": [
"A",
"A",
"A",
"A",
"B",
"B",
"B",
"B",
"A",
"A",
"A",
"A",
"B",
"B",
"B",
"B",
],
}
)
sns.boxplot(
data=df, y="Price", x="Quantity", hue="Product", linewidth=2.5, palette="Set2"
)
También podemos usar la función catplot()
para crear un diagrama de caja. La función catplot()
funciona muy bien para trazar valores categóricos. Para crear un diagrama de caja usando esta función, necesitamos especificar el valor del parámetro kind
en la función catplot()
como box
.
Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.
LinkedIn