Parquet-Datei in Pandas DataFrame einlesen

Fariba Laiq 15 Februar 2024
  1. Parkettdateien
  2. Parquet-Datei in Pandas DataFrame einlesen
Parquet-Datei in Pandas DataFrame einlesen

In der modernen Datenwissenschaft und in Datenstrukturen ist eine Parquet-Datei eine modernisierte und verbesserte Methode zum Speichern von Informationen, die besser organisiert ist als eine CSV-Datei. In diesem Artikel untersuchen wir die Natur von Parquet-Dateien und wie wir sie in Python in einen Pandas DataFrame einlesen können.

Parkettdateien

Parquet-Dateien speichern Informationen in einem spaltenbasierten Datendateiformat. Diese Dateien sind modernisiert, effizienter und für das Speichern und Abrufen von Daten organisiert.

Parquet-Dateien haben gegenüber CSV-Dateien auch einen wesentlichen Vorteil, da relevante Daten direkt ausgelesen und irrelevante Daten übersprungen werden können. Diese Art der Speicherung reduziert die Latenz während verschiedener Datenlese- und Abrufprozesse erheblich.

Darüber hinaus ist das Speichern großer Datenmengen wie Videos, Audio, Bilder usw. mit Parquet kein Problem.

Parquet-Datei in Pandas DataFrame einlesen

Um eine Parquet-Datei in einen DataFrame in Pandas einzulesen, müssen wir nur eine Reihe einfacher Schritte befolgen, um die erforderlichen Installationen abzudecken, bevor wir mit dem Code fortfahren.

Wir müssen zuerst sicherstellen, dass wir Python in unserem System installiert haben. Wir können die installierte Python-Version mit dem folgenden Befehl überprüfen.

python --version

Der nächste Schritt ist genauso einfach, wie wir den folgenden Befehl ausführen, um die Pandas-Bibliothek zu installieren, falls wir sie noch nicht haben.

pip install pandas

Jetzt haben wir die grundlegenden Anforderungen abgedeckt, und wir brauchen eine Engine, mit der das Pandas-Modul die Parquet-Datei lesen kann. In diesem Fall verwenden wir Apache Arrow.

Wir können es mit dem folgenden Befehl installieren.

pip install pyarrow

Das waren alle erforderlichen Voraussetzungen, um die Parquet-Datei in einen Pandas DataFrame einzulesen.

Zum Einlesen einer Parquet-Datei in einen Datenrahmen wird die Methode read_parquet() verwendet. Es verfügt über 5 Parameter, die je nach Anforderung des Entwicklers hinzugefügt oder verwendet werden können.

Syntax:

pandas.read_parquet(
    path,
    engine="auto",
    columns=None,
    storage_options=None,
    use_nullable_dtypes=False,
    **kwargs
)

Es ist wichtig zu beachten, dass drei Motoroptionen verfügbar sind und jeder Motor verwendet werden kann.

  • auto
  • pyarrow
  • fastparquet

Nachdem wir nun die Voraussetzungen und die Methode, die wir verwenden werden, behandelt haben, können wir einen Code zum Lesen der Datei formulieren. Der Code zum Lesen einer Parquet-Datei ist ziemlich einfach und relativ unkompliziert.

Dafür brauchen wir nur eine Parquet-Datei und (für diesen Artikel erstellen wir zuerst eine Parquet-Datei) die Methode read_parquet().

Beispielcode:

import pandas as pd

df = pd.DataFrame(
    {
        "student": ["Alia", "Zoya", "Ali"],
        "marks": [20, 10, 22],
    }
)
df.to_parquet("student.parquet")
pd.read_parquet("student.parquet", engine="pyarrow")

Ausgang:

Lesen Sie die Parquet-Datei in den Datenrahmen

Das war im Großen und Ganzen das Einlesen von Parkettdateien in Datenrahmen vorne. Jetzt, da wir die Datei lesen können, können wir weiterhin verschiedene Datenanalysetechniken und Suchen gemäß unseren individuellen Anforderungen durchführen.

Fariba Laiq avatar Fariba Laiq avatar

I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.

LinkedIn