Lesen Sie SAS in Pandas

Abid Ullah 21 Juni 2023
  1. Was sind SAS-Dateien
  2. Öffnen Sie .SAS-Dateien in Python
  3. Lesen Sie die SAS-Datei mit Pandas in Python
  4. Lesen Sie bestimmte Spalten aus der SAS-Datei in Python
  5. Speichern Sie die SAS-Dateien in Python im CSV-Format
Lesen Sie SAS in Pandas

Python ist eine Programmiersprache, die bei der Datenanalyse, Datenmodellierung und Visualisierung sehr hilfreich ist. Das Speichern von Daten mit Python kann jedoch manchmal ziemlich mühsam sein.

In diesem Artikel konzentrieren wir uns darauf, zu verstehen, wie man .SAS-Dateien in Python mit Pandas öffnet und verwendet. Wir werden auch besprechen, wie wir Daten aus .SAS-Dateien lesen können, wie wir in .SAS-Dateien schreiben und wie die Verwendung von .SAS-Dateien für schnellere Berechnungen in Python hilfreich ist.

Was sind SAS-Dateien

SAS steht für Statistical Analysis System und beinhaltet Statistiken und Daten. Diese Dateien können bei der Durchführung von Datenanalysen, Business Intelligence, Vorhersageanalysen, Computeranalysen und Datenverwaltung nützlich sein.

In den meisten Fällen haben die .SAS-Dateien die Endungen .sas7bdat und .sas7bcat.

Öffnen Sie .SAS-Dateien in Python

Um eine .SAS-Datei in Python zu öffnen, haben wir 2 verschiedene Methoden. Bei der ersten Methode verwenden wir pyreadstat, was es uns ermöglicht, unsere .SAS-Dateien in Python zu öffnen.

Die zweite Methode, um dasselbe zu tun, ist die Verwendung eines Pandas-Datenrahmens. Wenn wir einen Pandas-Datenrahmen verwenden, verwenden wir die Methode read_sas, die uns hilft, SAS-Dateien in unserem Python-Notebook zu öffnen.

Zuerst müssen wir Pyreadstat installieren, indem wir den folgenden Befehl ausführen.

pip install pyreadstat

Sobald das Paket installiert ist, können wir SAS-Dateien in unser Python-Notebook laden.

Im nächsten Schritt importieren wir das soeben installierte Pyreadstat.

import pyreadstat

Dies soll das Paket pyreadstat importieren und einsatzbereit sein.

Um nun die SAS-Datei mit der Erweiterung .sas7bdat zu öffnen, müssen wir read_sas7bdat verwenden.

Nehmen wir an, wir wollen eine Datei mit dem Namen gold.sas7bdat lesen; Der folgende Code soll uns helfen, die Datei zu importieren. Wir verwenden hier Datenrahmen.

df, meta = pyreadstat.read_sas7bdat("/gold.sas7bdat")

Nachdem wir die Datei nun bereits mit pyreadstat geladen haben, soll sie in den Arbeitsverzeichnissen zu finden sein. Um den Typ der erstellten df-Variablen zu überprüfen, müssen wir die folgende Zeile eingeben.

type(df)

Ausgang:

Die Ausgabe vom Typ df

Da wir nun wissen, dass es sich um einen Python-Datenrahmen handelt, können wir nun alle Methoden verwenden, die für Python-Datenrahmenobjekte verfügbar sind. Wir wollen die ersten fünf Einträge in der Datei drucken.

Der folgende Code soll die gewünschte Ausgabe anzeigen können.

df.head()

Ausgang:

Die Ausgabe des DF-Kopfes

Lesen Sie die SAS-Datei mit Pandas in Python

Dieser Abschnitt hilft uns zu verstehen, wie die gleiche Datei, die oben verwendet wurde, mit Pandas geladen wird.

Im ersten Schritt importieren wir pandas. Dies kann mit dem folgenden Code erfolgen.

import pandas as pd

Dieser Code soll die Panda-Bibliothek in unsere Arbeitsmappe importieren.

Dieser Schritt importiert die Datei mit der Pandas-Methode read_sas in unser Notebook.

geturl = "/gold.sas7bdat"
df = pd.read_sas(geturl)

Dieser Code soll die Datei in unser Notebook importieren. Lassen Sie uns nun die ersten fünf Datensätze der Datei drucken, da wir pyreadstat verwendet haben.

df.head()

Ausgang:

Die Ausgabe des Pandas DF-Kopfes

Lesen Sie bestimmte Spalten aus der SAS-Datei in Python

Wenn wir daran interessiert sind, bestimmte Spalten für die betrachtete Datei zu erhalten, verwenden wir das Argument in pyreadstat durch usecols. Der folgende Code hilft uns, das Konzept besser zu verstehen.

columns = ["YEAR"]
df, meta = pyreadstat.read_sas7bdat("/airline.sas7bdat", usecols=columns)
df.head()

Ausgang:

Die Ausgabe von Code mit usecols

Speichern Sie die SAS-Dateien in Python im CSV-Format

Um eine Datei mit der Erweiterung .sas7bdat in CSV zu speichern, müssen wir die korrekte Verwendung der to_csv-Methode sicherstellen. Der folgende Code konvertiert die Datei für den oben erstellten Datenrahmen in CSV.

df.to_csv("ourdatafile.csv", index=False)

Der obige Code speichert die vorhandene .SAS-Erweiterungsdatei im CSV-Format unter Verwendung von Datenrahmen.

Wir hoffen, dass Sie diesen Artikel beim Erlernen der Verwendung von SAS-Dateien mit Python hilfreich finden.

Autor: Abid Ullah
Abid Ullah avatar Abid Ullah avatar

My name is Abid Ullah, and I am a software engineer. I love writing articles on programming, and my favorite topics are Python, PHP, JavaScript, and Linux. I tend to provide solutions to people in programming problems through my articles. I believe that I can bring a lot to you with my skills, experience, and qualification in technical writing.

LinkedIn