Lesen Sie die GZ-Datei in Pandas

Hira Arif 21 Juni 2023
  1. Lesen Sie die GZ-Datei in Pandas
  2. Verwenden Sie Pandas Data Frame, um die gz-Datei zu lesen
Lesen Sie die GZ-Datei in Pandas

Wenn Sie ein Python-Fan sind und Python für die Datenanalyse und -verarbeitung verwenden, könnten Sie daran interessiert sein, eine gz-Datei als Pandas-Datenrahmen mit Python zu lesen. Dieses Tutorial zeigt einen möglichen Weg, eine gz-Datei als Datenrahmen mit einer Python-Bibliothek namens pandas zu lesen.

Lesen Sie die GZ-Datei in Pandas

gz ist eine Dateierweiterung für komprimierte Dateien, die mit dem standardmäßigen GNU-Zip-Komprimierungsalgorithmus (gzip) komprimiert wurden. Es wird häufig als Komprimierungsformat für Linux- und Unix-Betriebssysteme verwendet. Wenn Sie beispielsweise eine Datei für eine E-Mail haben, können Sie das Dateiformat gz verwenden, um die Datei in eine kleinere Datei zu komprimieren.

Große Datendateien werden mit einem Komprimierungsalgorithmus komprimiert, und um diese Daten zu verwenden; der Benutzer muss den Inhalt in einer organisierten Struktur lesen.

Python-Bibliothek; Pandas hat einen Datentyp namens Data Frame, der ein integraler Bestandteil des Python- und NumPy-Ökosystems ist, wodurch sie schneller, benutzerfreundlicher und leistungsfähiger sind als Tabellen und Tabellenkalkulationen.

Ein Datenrahmen ist eine Datenstruktur, die verwendet wird, um zweidimensionale, in der Größe veränderbare, potenziell heterogene tabellarische Daten darzustellen. Es enthält beschriftete Achsen (Zeilen und Spalten).

Arithmetische Operationen werden sowohl in Zeilen- als auch in Spaltenbeschriftungen platziert. Es ist ein Diktat-ähnlicher Container für Serienobjekte, Tabellenkalkulationen oder SQL-Tabellen.

Wenn wir also daran interessiert sind, eine gz-Datei als Pandas-Datenrahmen mit Python zu lesen, dann beachten Sie, dass wir die .gz-Datei nicht direkt lesen können, wir müssen die Daten der Datei mit Python in einem organisierten Format anordnen.

Wie liest man also die .gz-Datei? Dazu müssen wir die unten angegebenen Schritte ausführen.

  • Geben Sie den absoluten Pfad der gz-Datei und nachfolgende Attribute zum Lesen der Datei an.
  • Verwenden Sie die Methode read_csv() aus dem Modul pandas und übergeben Sie den Parameter.
  • Verwenden Sie Pandas DataFrame, um die Daten der gz-Datei anzuzeigen und zu manipulieren.

Verwenden Sie Pandas Data Frame, um die gz-Datei zu lesen

Angenommen, wir möchten eine gz-komprimierte Datei für eine CSV-Datei 50_Startups.csv lesen.

path_gzip_file = "F:/50_Startups.csv.gz"

Lassen Sie uns dazu den folgenden Code ausführen.

Beispielcode (gespeichert in demo.py):

import pandas as pd

path_gzip_file = "F:/50_Startups.csv.gz"

gzip_file_data_frame = pd.read_csv(
    path_gzip_file, compression="gzip", header=0, sep=",", quotechar='"'
)

print(gzip_file_data_frame.head(5))

Zuerst importieren wir das Modul pandas und aliasieren es als pd, um mit Datenrahmen zu arbeiten und Dateien zu lesen. Als nächstes geben wir einen absoluten Pfad unserer gz-Datei an.

Danach rufen wir die Methode pd.read_csv() des Moduls pandas auf und übergeben Parameter. Das pd.read_csv nimmt mehrere Parameter und gibt einen pandas-Datenrahmen zurück.

Wir übergeben fünf Parameter, die unten aufgeführt sind.

  1. Das erste ist ein String-Pfad-Objekt.
  2. Der zweite ist der Stringtyp compression (in diesem Fall gzip).
  3. Der dritte ist der ganzzahlige header (Übergeben Sie explizit header=0, damit der vorhandene Name ersetzt werden kann. Der Header kann eine Liste von ganzen Zahlen sein, die Zeilenpositionen für mehrere Indizes der Spalte angeben. [0,1, 3]).
  4. Der vierte ist der String delimiter (in diesem Fall ,).
  5. Das fünfte ist quotechar, eine optionale Zeichenfolge der Länge 1 (Zeichen, die verwendet werden, um den Anfang und das Ende von Elementen in Anführungszeichen zu markieren. In Anführungszeichen gesetzte Elemente können Trennzeichen enthalten und werden ignoriert.)

Schließlich verketten wir den Datenrahmen mit der Funktion head(), die einen Parameter n akzeptiert, die erste n Anzahl von Datenzeilen zurückgibt und dann die Daten druckt.

Nun führen wir den obigen Code wie folgt aus:

PS F:\> & C:/Python310/python.exe f:/demo.py

Unsere Datei 50_Startups.csv.gz wurde erfolgreich gelesen. Siehe die ersten 5 Zeilen aus dem Dateiinhalt unten.

   R&D Spend  Administration  Marketing Spend       State     Profit
0  165349.20       136897.80        471784.10    New York  192261.83
1  162597.70       151377.59        443898.53  California  191792.06
2  153441.51       101145.55        407934.54     Florida  191050.39
3  144372.41       118671.85        383199.62    New York  182901.99
4  142107.34        91391.77        366168.42     Florida  166187.94