UTF8 in Python kodieren

Fariba Laiq 18 August 2022
UTF8 in Python kodieren

UTF steht für Unicode Transformation Format. Es ist ein Codierungssystem mit variabler Breite, das alle von Unicode abgedeckten Zeichen in eine binäre Zeichenfolge von 1 bis 4 Bytes codiert.

Es ermöglicht die Darstellung internationaler Schriftzeichen wie Chinesisch. Es ist auch abwärtskompatibel mit ASCII.

UTF-8 wird hauptsächlich zum Codieren von E-Mails und Webseiten verwendet.

Verwenden Sie encode(), um einen String in UTF-8 in Python zu codieren

Wenn wir in Python einen String in UTF-8 kodieren wollen, verwenden wir die Methode encode(). Es ist eine integrierte Methode, die die codierte Version einer Zeichenfolge zurückgibt.

Standardmäßig nimmt es keine Argumente entgegen und konvertiert die Zeichenfolge in UTF-8. Es kann jedoch zwei optionale Parameter akzeptieren, encoding und errors.

Die encoding bezieht sich auf die verwendete Codierungstechnik, und die errors stellen die Reaktion im Falle eines Codierungsfehlers dar. Die Standardantwort ist strict, was bei einem Fehler eine UnicodeDecodeError-Ausnahme auslöst.

Im folgenden Code haben wir das Wort Naiv kodiert, das ein Sonderzeichen ï enthält. Die Methode encode() konvertiert den gesamten Text in die UTF-8-Version.

Beispielcode:

string = "Naïve"
print("String before encoding:", string)
print("String after encoding:", string.encode())

Ausgabe:

String before encoding: Naïve
String after encoding: b'Na\xc3\xafve'
Fariba Laiq avatar Fariba Laiq avatar

I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.

LinkedIn