Lesen Sie SAS in Pandas
- Was sind SAS-Dateien
-
Öffnen Sie
.SAS
-Dateien in Python - Lesen Sie die SAS-Datei mit Pandas in Python
- Lesen Sie bestimmte Spalten aus der SAS-Datei in Python
- Speichern Sie die SAS-Dateien in Python im CSV-Format
Python ist eine Programmiersprache, die bei der Datenanalyse, Datenmodellierung und Visualisierung sehr hilfreich ist. Das Speichern von Daten mit Python kann jedoch manchmal ziemlich mühsam sein.
In diesem Artikel konzentrieren wir uns darauf, zu verstehen, wie man .SAS
-Dateien in Python mit Pandas öffnet und verwendet. Wir werden auch besprechen, wie wir Daten aus .SAS
-Dateien lesen können, wie wir in .SAS
-Dateien schreiben und wie die Verwendung von .SAS
-Dateien für schnellere Berechnungen in Python hilfreich ist.
Was sind SAS-Dateien
SAS steht für Statistical Analysis System
und beinhaltet Statistiken und Daten. Diese Dateien können bei der Durchführung von Datenanalysen, Business Intelligence, Vorhersageanalysen, Computeranalysen und Datenverwaltung nützlich sein.
In den meisten Fällen haben die .SAS
-Dateien die Endungen .sas7bdat
und .sas7bcat
.
Öffnen Sie .SAS
-Dateien in Python
Um eine .SAS
-Datei in Python zu öffnen, haben wir 2 verschiedene Methoden. Bei der ersten Methode verwenden wir pyreadstat
, was es uns ermöglicht, unsere .SAS
-Dateien in Python zu öffnen.
Die zweite Methode, um dasselbe zu tun, ist die Verwendung eines Pandas-Datenrahmens. Wenn wir einen Pandas-Datenrahmen verwenden, verwenden wir die Methode read_sas
, die uns hilft, SAS-Dateien in unserem Python-Notebook zu öffnen.
Zuerst müssen wir Pyreadstat
installieren, indem wir den folgenden Befehl ausführen.
pip install pyreadstat
Sobald das Paket installiert ist, können wir SAS-Dateien in unser Python-Notebook laden.
Im nächsten Schritt importieren wir das soeben installierte Pyreadstat
.
import pyreadstat
Dies soll das Paket pyreadstat
importieren und einsatzbereit sein.
Um nun die SAS-Datei mit der Erweiterung .sas7bdat
zu öffnen, müssen wir read_sas7bdat
verwenden.
Nehmen wir an, wir wollen eine Datei mit dem Namen gold.sas7bdat
lesen; Der folgende Code soll uns helfen, die Datei zu importieren. Wir verwenden hier Datenrahmen.
df, meta = pyreadstat.read_sas7bdat("/gold.sas7bdat")
Nachdem wir die Datei nun bereits mit pyreadstat
geladen haben, soll sie in den Arbeitsverzeichnissen zu finden sein. Um den Typ der erstellten df
-Variablen zu überprüfen, müssen wir die folgende Zeile eingeben.
type(df)
Ausgang:
Da wir nun wissen, dass es sich um einen Python-Datenrahmen handelt, können wir nun alle Methoden verwenden, die für Python-Datenrahmenobjekte verfügbar sind. Wir wollen die ersten fünf Einträge in der Datei drucken.
Der folgende Code soll die gewünschte Ausgabe anzeigen können.
df.head()
Ausgang:
Lesen Sie die SAS-Datei mit Pandas in Python
Dieser Abschnitt hilft uns zu verstehen, wie die gleiche Datei, die oben verwendet wurde, mit Pandas geladen wird.
Im ersten Schritt importieren wir pandas
. Dies kann mit dem folgenden Code erfolgen.
import pandas as pd
Dieser Code soll die Panda-Bibliothek in unsere Arbeitsmappe importieren.
Dieser Schritt importiert die Datei mit der Pandas-Methode read_sas
in unser Notebook.
geturl = "/gold.sas7bdat"
df = pd.read_sas(geturl)
Dieser Code soll die Datei in unser Notebook importieren. Lassen Sie uns nun die ersten fünf Datensätze der Datei drucken, da wir pyreadstat
verwendet haben.
df.head()
Ausgang:
Lesen Sie bestimmte Spalten aus der SAS-Datei in Python
Wenn wir daran interessiert sind, bestimmte Spalten für die betrachtete Datei zu erhalten, verwenden wir das Argument in pyreadstat
durch usecols
. Der folgende Code hilft uns, das Konzept besser zu verstehen.
columns = ["YEAR"]
df, meta = pyreadstat.read_sas7bdat("/airline.sas7bdat", usecols=columns)
df.head()
Ausgang:
Speichern Sie die SAS-Dateien in Python im CSV-Format
Um eine Datei mit der Erweiterung .sas7bdat
in CSV zu speichern, müssen wir die korrekte Verwendung der to_csv
-Methode sicherstellen. Der folgende Code konvertiert die Datei für den oben erstellten Datenrahmen in CSV.
df.to_csv("ourdatafile.csv", index=False)
Der obige Code speichert die vorhandene .SAS
-Erweiterungsdatei im CSV-Format unter Verwendung von Datenrahmen.
Wir hoffen, dass Sie diesen Artikel beim Erlernen der Verwendung von SAS-Dateien mit Python hilfreich finden.
My name is Abid Ullah, and I am a software engineer. I love writing articles on programming, and my favorite topics are Python, PHP, JavaScript, and Linux. I tend to provide solutions to people in programming problems through my articles. I believe that I can bring a lot to you with my skills, experience, and qualification in technical writing.
LinkedIn