Holen Sie sich Substring in Pandas

Fariba Laiq 15 Februar 2024 Pandas Pandas String
  1. Holen Sie sich Substring von Pandas DataFrame-Spaltenwerten
  2. Extrahieren Sie die Ersten N Zeichen aus einer Zeichenfolge
  3. Extrahieren Sie die letzten N Zeichen aus einer Zeichenfolge
  4. Extrahieren Sie Any Substring aus der Mitte eines Strings
Holen Sie sich Substring in Pandas

Pandas ist eine Open-Source-Datenanalysebibliothek in Python. Es bietet viele integrierte Methoden, um Operationen mit numerischen Daten durchzuführen.

In diesem Leitfaden erhalten wir eine Teilzeichenfolge (Teil einer Zeichenfolge) aus den Werten einer Pandas-Datenrahmenspalte durch verschiedene Ansätze. Es könnte hilfreich sein, wenn wir einen sinnvollen Teilstring aus einem String extrahieren möchten.

Holen Sie sich Substring von Pandas DataFrame-Spaltenwerten

Wir werden string slicing-Methoden verwenden, um diese Aufgabe zu lösen. Die Methode str.slice() gibt einen Teil eines Strings zurück, ohne den eigentlichen String zu verändern.

Syntax:

# Python 3.x
df.column_name.str.slice(start_index, end_index)

Wir können String-Slicing auch mit dem Accessor str mit eckigen Klammern ([]) durchführen.

# Python 3.x
df.column_name.str[start_index:end_index]

Extrahieren Sie die Ersten N Zeichen aus einer Zeichenfolge

Wir haben im folgenden Beispiel einen Pandas-Datenrahmen, der aus dem vollständigen Prozessornamen besteht. Wenn wir den Teilstring intel (die ersten fünf Zeichen) erhalten möchten, geben wir 0 und 5 als start- bzw. end-Index an.

Wir können auch nur den Endindex erwähnen, wenn wir die Methode der eckigen Klammern verwenden, weil sie die gleiche Bedeutung haben.

Beispielcode:

# Python 3.x
import pandas as pd
import numpy as np

df = {"Processor": ["Intel Core i7", "Intel Core i3", "Intel Core i5", "Intel Core i9"]}
df = pd.DataFrame.from_dict(df)
display(df)
df["Brand Name"] = df.Processor.str.slice(0, 5)
display(df)

Ausgang:

Extrahieren Sie die Ersten N-Zeichen aus einer Zeichenfolge

Extrahieren Sie die letzten N Zeichen aus einer Zeichenfolge

Wenn wir den Markenmodifikator (die letzten beiden Zeichen) aus dem String extrahieren wollen, verwenden wir beim String-Slicing negative Indizierung. Wir übergeben den Startindex -2 (den Index des vorletzten Zeichens) und lassen den Endindex leer.

Es werden automatisch die letzten beiden Zeichen aus der Zeichenfolge übernommen.

Beispielcode:

# Python 3.x
import pandas as pd
import numpy as np

df = {"Processor": ["Intel Core i7", "Intel Core i3", "Intel Core i5", "Intel Core i9"]}
df = pd.DataFrame.from_dict(df)
display(df)
df["Brand Modifier"] = df.Processor.str.slice(
    -2,
)
display(df)

Ausgang:

Extrahieren Sie die letzten N-Zeichen aus einer Zeichenfolge

Extrahieren Sie Any Substring aus der Mitte eines Strings

Um einen Teilstring aus der Mitte eines Strings zu erhalten, müssen wir den Start- und Endindex beim String-Slicing angeben. Wenn wir hier das Wort Core erhalten möchten, nennen wir 6 und 10 als Start- bzw. Endindex.

Es wird die Teilzeichenfolge zwischen (und einschließlich) den angegebenen Positionen erhalten.

Beispielcode:

# Python 3.x
import pandas as pd
import numpy as np

df = {"Processor": ["Intel Core i7", "Intel Core i3", "Intel Core i5", "Intel Core i9"]}
df = pd.DataFrame.from_dict(df)
display(df)
df["Series"] = df.Processor.str[6:10]
display(df)

Ausgang:

Extrahieren Sie Any Substring aus der Mitte einer Zeichenfolge

Genießen Sie unsere Tutorials? Abonnieren Sie DelftStack auf YouTube, um uns bei der Erstellung weiterer hochwertiger Videoanleitungen zu unterstützen. Abonnieren
Fariba Laiq avatar Fariba Laiq avatar

I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.

LinkedIn

Verwandter Artikel - Pandas String