Holen Sie sich die Teilzeichenfolge einer Spalte in Pandas

Preet Sanghavi 21 Juni 2023
  1. Holen Sie sich die Teilzeichenfolge einer Spalte in Pandas
  2. Verwenden Sie die Funktion str.slice(), um die Teilzeichenfolge einer Spalte in Pandas abzurufen
  3. Verwenden Sie eckige Klammern, um die Teilzeichenfolge einer Spalte in Pandas zu erhalten
  4. Verwenden Sie die Funktion str.extract(), um die Teilzeichenfolge einer Spalte in Pandas abzurufen
Holen Sie sich die Teilzeichenfolge einer Spalte in Pandas

In diesem Tutorial erfahren wir, wie Sie die Teilzeichenfolge der Spalte in Pandas erhalten.

Holen Sie sich die Teilzeichenfolge einer Spalte in Pandas

Diese Extraktion kann in vielen Szenarien beim Arbeiten mit Daten hilfreich sein. Stellen Sie sich beispielsweise einen Fall vor, in dem wir einen Benutzernamen aus dem Vornamen des Benutzers erstellen möchten.

Wir werden mehrere Ansätze verwenden, um dies durchzuführen.

Lassen Sie uns zunächst einen Pandas-Datenrahmen erstellen, an dem wir während unseres gesamten Tutorials arbeiten werden. Wir werden eine name-Spalte in unseren Datenrahmen aufnehmen und versuchen, einen Benutzernamen aus dieser Spalte zu extrahieren.

Code:

import pandas as pd

dict = {"Name": ["Shivesh Jha", "Sanay Shah", "Rutwik Sonawane"]}
df = pd.DataFrame.from_dict(dict)

Werfen wir einen Blick auf unseren Datenrahmen.

print(df)

Ausgang:

              Name
0      Shivesh Jha
1       Sanay Shah
2  Rutwik Sonawane

Lassen Sie uns nun verschiedene Möglichkeiten durchgehen, die wir anwenden können, um die Teilzeichenfolge aus der Spalte zu erhalten.

Verwenden Sie die Funktion str.slice(), um die Teilzeichenfolge einer Spalte in Pandas abzurufen

Bei diesem Ansatz verwenden wir die Funktion str.slice(), um die ersten drei Zeichen aus der Spalte name zu erhalten und sie als Benutzernamen für einen bestimmten Benutzer zu verwenden. In der Funktion slice() müssen wir die Start- und Endindizes der Zeichenfolge übergeben, die wir extrahieren möchten.

Wir werden den folgenden Code verwenden, um diese Funktion auszuführen.

df["UserName"] = df["Name"].str.slice(0, 3)
print(df)

Schauen wir uns nun unseren aktualisierten Datenrahmen an, in dem wir eine neue Spalte Benutzername haben, die die ersten drei Zeichen der Spalte name enthält.

Ausgang:

              Name UserName
0      Shivesh Jha      Shi
1       Sanay Shah      San
2  Rutwik Sonawane      Rut

Wir können in der Ausgabe sehen, dass wir die ersten drei Zeichen erfolgreich aus unserer Spalte name extrahiert und in der neuen Spalte Benutzername verwendet haben.

Verwenden Sie eckige Klammern, um die Teilzeichenfolge einer Spalte in Pandas zu erhalten

Wir verwenden die eckigen Klammern, um auf die Zeichenfolge zuzugreifen und die Zeichen zu erhalten, die wir bei diesem Ansatz extrahieren möchten. Wir verwenden den folgenden Code, um diese Aktion auszuführen.

df["UserName"] = df["Name"].str[:3]

Ausgang:

              Name UserName
0      Shivesh Jha      Shi
1       Sanay Shah      San
2  Rutwik Sonawane      Rut

Wir können in diesem Code sehen, dass wir die neue Spalte mit den ersten 3 Zeichen der vorhandenen Spalte erhalten haben.

Verwenden Sie die Funktion str.extract(), um die Teilzeichenfolge einer Spalte in Pandas abzurufen

Dieser Ansatz extrahiert den Nachnamen des Benutzers aus dem Namen. Wir werden die Funktion str.extract() verwenden, um dies zu implementieren.

Code:

df["LastName"] = df.Name.str.extract(r"\b(\w+)$", expand=True)

Lassen Sie uns nun den aktualisierten Datenrahmen überprüfen.

print(df)

Ausgang:

              Name  LastName
0      Shivesh Jha       Jha
1       Sanay Shah      Shah
2  Rutwik Sonawane  Sonawane

Wie oben zu sehen ist, haben wir erfolgreich die gewünschten Ergebnisse erzielt. Daher können wir den Teilstring einer Spalte in Pandas mit den oben genannten Techniken erhalten.

Preet Sanghavi avatar Preet Sanghavi avatar

Preet writes his thoughts about programming in a simplified manner to help others learn better. With thorough research, his articles offer descriptive and easy to understand solutions.

LinkedIn GitHub

Verwandter Artikel - Pandas DataFrame Column