Lesen Sie die GZ-Datei in Pandas
Wenn Sie ein Python-Fan sind und Python für die Datenanalyse und -verarbeitung verwenden, könnten Sie daran interessiert sein, eine gz
-Datei als Pandas-Datenrahmen mit Python zu lesen. Dieses Tutorial zeigt einen möglichen Weg, eine gz
-Datei als Datenrahmen mit einer Python-Bibliothek namens pandas
zu lesen.
Lesen Sie die GZ-Datei in Pandas
gz
ist eine Dateierweiterung für komprimierte Dateien, die mit dem standardmäßigen GNU-Zip-Komprimierungsalgorithmus (gzip
) komprimiert wurden. Es wird häufig als Komprimierungsformat für Linux- und Unix-Betriebssysteme verwendet. Wenn Sie beispielsweise eine Datei für eine E-Mail haben, können Sie das Dateiformat gz
verwenden, um die Datei in eine kleinere Datei zu komprimieren.
Große Datendateien werden mit einem Komprimierungsalgorithmus komprimiert, und um diese Daten zu verwenden; der Benutzer muss den Inhalt in einer organisierten Struktur lesen.
Python-Bibliothek; Pandas hat einen Datentyp namens Data Frame, der ein integraler Bestandteil des Python- und NumPy
-Ökosystems ist, wodurch sie schneller, benutzerfreundlicher und leistungsfähiger sind als Tabellen und Tabellenkalkulationen.
Ein Datenrahmen ist eine Datenstruktur, die verwendet wird, um zweidimensionale, in der Größe veränderbare, potenziell heterogene tabellarische Daten darzustellen. Es enthält beschriftete Achsen (Zeilen und Spalten).
Arithmetische Operationen werden sowohl in Zeilen- als auch in Spaltenbeschriftungen platziert. Es ist ein Diktat-ähnlicher Container für Serienobjekte, Tabellenkalkulationen oder SQL-Tabellen.
Wenn wir also daran interessiert sind, eine gz
-Datei als Pandas-Datenrahmen mit Python zu lesen, dann beachten Sie, dass wir die .gz
-Datei nicht direkt lesen können, wir müssen die Daten der Datei mit Python in einem organisierten Format anordnen.
Wie liest man also die .gz
-Datei? Dazu müssen wir die unten angegebenen Schritte ausführen.
-
Geben Sie den absoluten Pfad der
gz
-Datei und nachfolgende Attribute zum Lesen der Datei an. -
Verwenden Sie die Methode
read_csv()
aus dem Modulpandas
und übergeben Sie den Parameter. -
Verwenden Sie Pandas
DataFrame
, um die Daten dergz
-Datei anzuzeigen und zu manipulieren.
Verwenden Sie Pandas Data Frame, um die gz
-Datei zu lesen
Angenommen, wir möchten eine gz
-komprimierte Datei für eine CSV-Datei 50_Startups.csv
lesen.
path_gzip_file = "F:/50_Startups.csv.gz"
Lassen Sie uns dazu den folgenden Code ausführen.
Beispielcode (gespeichert in demo.py
):
import pandas as pd
path_gzip_file = "F:/50_Startups.csv.gz"
gzip_file_data_frame = pd.read_csv(
path_gzip_file, compression="gzip", header=0, sep=",", quotechar='"'
)
print(gzip_file_data_frame.head(5))
Zuerst importieren wir das Modul pandas
und aliasieren es als pd
, um mit Datenrahmen zu arbeiten und Dateien zu lesen. Als nächstes geben wir einen absoluten Pfad unserer gz
-Datei an.
Danach rufen wir die Methode pd.read_csv()
des Moduls pandas
auf und übergeben Parameter. Das pd.read_csv
nimmt mehrere Parameter und gibt einen pandas
-Datenrahmen zurück.
Wir übergeben fünf Parameter, die unten aufgeführt sind.
- Das erste ist ein String-
Pfad
-Objekt. - Der zweite ist der Stringtyp
compression
(in diesem Fallgzip
). - Der dritte ist der ganzzahlige
header
(Übergeben Sie explizitheader=0
, damit der vorhandene Name ersetzt werden kann. Der Header kann eine Liste von ganzen Zahlen sein, die Zeilenpositionen für mehrere Indizes der Spalte angeben.[0,1, 3]
). - Der vierte ist der String
delimiter
(in diesem Fall,
). - Das fünfte ist
quotechar
, eine optionale Zeichenfolge der Länge1
(Zeichen, die verwendet werden, um den Anfang und das Ende von Elementen in Anführungszeichen zu markieren. In Anführungszeichen gesetzte Elemente können Trennzeichen enthalten und werden ignoriert.)
Schließlich verketten wir den Datenrahmen mit der Funktion head()
, die einen Parameter n
akzeptiert, die erste n
Anzahl von Datenzeilen zurückgibt und dann die Daten druckt.
Nun führen wir den obigen Code wie folgt aus:
PS F:\> & C:/Python310/python.exe f:/demo.py
Unsere Datei 50_Startups.csv.gz
wurde erfolgreich gelesen. Siehe die ersten 5 Zeilen aus dem Dateiinhalt unten.
R&D Spend Administration Marketing Spend State Profit
0 165349.20 136897.80 471784.10 New York 192261.83
1 162597.70 151377.59 443898.53 California 191792.06
2 153441.51 101145.55 407934.54 Florida 191050.39
3 144372.41 118671.85 383199.62 New York 182901.99
4 142107.34 91391.77 366168.42 Florida 166187.94