Holen Sie sich Substring in Pandas

Fariba Laiq 15 Februar 2024
  1. Holen Sie sich Substring von Pandas DataFrame-Spaltenwerten
  2. Extrahieren Sie die Ersten N Zeichen aus einer Zeichenfolge
  3. Extrahieren Sie die letzten N Zeichen aus einer Zeichenfolge
  4. Extrahieren Sie Any Substring aus der Mitte eines Strings
Holen Sie sich Substring in Pandas

Pandas ist eine Open-Source-Datenanalysebibliothek in Python. Es bietet viele integrierte Methoden, um Operationen mit numerischen Daten durchzuführen.

In diesem Leitfaden erhalten wir eine Teilzeichenfolge (Teil einer Zeichenfolge) aus den Werten einer Pandas-Datenrahmenspalte durch verschiedene Ansätze. Es könnte hilfreich sein, wenn wir einen sinnvollen Teilstring aus einem String extrahieren möchten.

Holen Sie sich Substring von Pandas DataFrame-Spaltenwerten

Wir werden string slicing-Methoden verwenden, um diese Aufgabe zu lösen. Die Methode str.slice() gibt einen Teil eines Strings zurück, ohne den eigentlichen String zu verändern.

Syntax:

# Python 3.x
df.column_name.str.slice(start_index, end_index)

Wir können String-Slicing auch mit dem Accessor str mit eckigen Klammern ([]) durchführen.

# Python 3.x
df.column_name.str[start_index:end_index]

Extrahieren Sie die Ersten N Zeichen aus einer Zeichenfolge

Wir haben im folgenden Beispiel einen Pandas-Datenrahmen, der aus dem vollständigen Prozessornamen besteht. Wenn wir den Teilstring intel (die ersten fünf Zeichen) erhalten möchten, geben wir 0 und 5 als start- bzw. end-Index an.

Wir können auch nur den Endindex erwähnen, wenn wir die Methode der eckigen Klammern verwenden, weil sie die gleiche Bedeutung haben.

Beispielcode:

# Python 3.x
import pandas as pd
import numpy as np

df = {"Processor": ["Intel Core i7", "Intel Core i3", "Intel Core i5", "Intel Core i9"]}
df = pd.DataFrame.from_dict(df)
display(df)
df["Brand Name"] = df.Processor.str.slice(0, 5)
display(df)

Ausgang:

Extrahieren Sie die Ersten N-Zeichen aus einer Zeichenfolge

Extrahieren Sie die letzten N Zeichen aus einer Zeichenfolge

Wenn wir den Markenmodifikator (die letzten beiden Zeichen) aus dem String extrahieren wollen, verwenden wir beim String-Slicing negative Indizierung. Wir übergeben den Startindex -2 (den Index des vorletzten Zeichens) und lassen den Endindex leer.

Es werden automatisch die letzten beiden Zeichen aus der Zeichenfolge übernommen.

Beispielcode:

# Python 3.x
import pandas as pd
import numpy as np

df = {"Processor": ["Intel Core i7", "Intel Core i3", "Intel Core i5", "Intel Core i9"]}
df = pd.DataFrame.from_dict(df)
display(df)
df["Brand Modifier"] = df.Processor.str.slice(
    -2,
)
display(df)

Ausgang:

Extrahieren Sie die letzten N-Zeichen aus einer Zeichenfolge

Extrahieren Sie Any Substring aus der Mitte eines Strings

Um einen Teilstring aus der Mitte eines Strings zu erhalten, müssen wir den Start- und Endindex beim String-Slicing angeben. Wenn wir hier das Wort Core erhalten möchten, nennen wir 6 und 10 als Start- bzw. Endindex.

Es wird die Teilzeichenfolge zwischen (und einschließlich) den angegebenen Positionen erhalten.

Beispielcode:

# Python 3.x
import pandas as pd
import numpy as np

df = {"Processor": ["Intel Core i7", "Intel Core i3", "Intel Core i5", "Intel Core i9"]}
df = pd.DataFrame.from_dict(df)
display(df)
df["Series"] = df.Processor.str[6:10]
display(df)

Ausgang:

Extrahieren Sie Any Substring aus der Mitte einer Zeichenfolge

Fariba Laiq avatar Fariba Laiq avatar

I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.

LinkedIn

Verwandter Artikel - Pandas String