Obtenga la subcadena de una columna en Pandas
- Obtenga la subcadena de una columna en Pandas
-
Utilice la función
str.slice()
para obtener la subcadena de una columna en Pandas - Use corchetes para obtener la subcadena de una columna en Pandas
-
Utilice la función
str.extract()
para obtener la subcadena de una columna en Pandas
En este tutorial, aprenderemos cómo obtener la subcadena de la columna en Pandas.
Obtenga la subcadena de una columna en Pandas
Esta extracción puede ser útil en muchos escenarios cuando se trabaja con datos. Por ejemplo, considere un caso en el que queremos crear un nombre de usuario a partir del nombre de pila del usuario.
Usaremos múltiples enfoques para realizar esto.
Para empezar, vamos a crear un marco de datos de Pandas en el que trabajaremos a lo largo de nuestro tutorial. Incluiremos una columna de nombre
en nuestro marco de datos y nuestro objetivo será extraer un nombre de usuario de esa columna.
Código:
import pandas as pd
dict = {"Name": ["Shivesh Jha", "Sanay Shah", "Rutwik Sonawane"]}
df = pd.DataFrame.from_dict(dict)
Echemos un vistazo a nuestro marco de datos.
print(df)
Producción :
Name
0 Shivesh Jha
1 Sanay Shah
2 Rutwik Sonawane
Veamos ahora varias formas que podemos emplear para obtener una subcadena de la columna.
Utilice la función str.slice()
para obtener la subcadena de una columna en Pandas
En este enfoque, utilizaremos la función str.slice()
para obtener los primeros tres caracteres de la columna name
y utilizarlos como nombre de usuario para un usuario en particular. En la función slice()
, necesitamos pasar los índices de inicio y final de la cadena que queremos extraer.
Usaremos el siguiente código para realizar esta función.
df["UserName"] = df["Name"].str.slice(0, 3)
print(df)
Veamos ahora nuestro marco de datos actualizado donde tenemos una nueva columna de nombre de usuario
que contiene los primeros tres caracteres de la columna nombre
.
Producción :
Name UserName
0 Shivesh Jha Shi
1 Sanay Shah San
2 Rutwik Sonawane Rut
Podemos ver en el resultado que extrajimos con éxito los primeros tres caracteres de nuestra columna nombre
y los usamos en la nueva columna nombre de usuario
.
Use corchetes para obtener la subcadena de una columna en Pandas
Usamos los corchetes para acceder a la cadena y obtener los caracteres que deseamos extraer en este enfoque. Usamos el siguiente código para realizar esta acción.
df["UserName"] = df["Name"].str[:3]
Producción :
Name UserName
0 Shivesh Jha Shi
1 Sanay Shah San
2 Rutwik Sonawane Rut
Podemos ver en este código que hemos obtenido la nueva columna con los primeros 3 caracteres de la columna existente.
Utilice la función str.extract()
para obtener la subcadena de una columna en Pandas
Este enfoque extraerá el apellido del usuario del nombre. Usaremos la función str.extract()
para implementar esto.
Código:
df["LastName"] = df.Name.str.extract(r"\b(\w+)$", expand=True)
Ahora, verifiquemos el marco de datos actualizado.
print(df)
Producción :
Name LastName
0 Shivesh Jha Jha
1 Sanay Shah Shah
2 Rutwik Sonawane Sonawane
Como se ha visto anteriormente, hemos obtenido con éxito los resultados deseados. Por lo tanto, podemos obtener la subcadena de una columna en Pandas utilizando las técnicas anteriores.
Artículo relacionado - Pandas DataFrame Column
- Cómo obtener las cabeceras de columna de Pandas DataFrame como una lista
- Cómo borrar la columna de Pandas DataFrame
- Cómo convertir la columna del DataFrame a Datetime en Pandas
- Cómo obtener la suma de la columna de Pandas
- Cómo cambiar el orden de las columnas Pandas DataFrame
- Cómo convertir la columna del DataFrame en cadena en los pandas