Codificar UTF8 en Python
UTF significa Formato de transformación Unicode
. Es un sistema de codificación de ancho variable que codifica todos los caracteres cubiertos por Unicode en una cadena binaria de uno a cuatro bytes.
Permite la representación de caracteres internacionales como el chino. También es retrocompatible con ASCII.
UTF-8 se usa principalmente para codificar correo electrónico y páginas web.
Use encode()
para codificar una cadena en UTF-8 en Python
En Python, si queremos codificar una cadena en UTF-8, usaremos el método encode()
. Es un método integrado que devuelve la versión codificada de una cadena.
De forma predeterminada, no toma ningún argumento y convierte la cadena a UTF-8. Sin embargo, puede aceptar dos parámetros opcionales, encoding
y errors
.
La codificación
se refiere a la técnica de codificación utilizada, y los errores
representan la respuesta en caso de falla de codificación. La respuesta predeterminada es “estricta”, que genera una excepción UnicodeDecodeError
en caso de falla.
En el siguiente código, codificamos la palabra Naïve
, que contiene un carácter especial ï
. El método encode()
convierte todo el texto a la versión UTF-8.
Código de ejemplo:
string = "Naïve"
print("String before encoding:", string)
print("String after encoding:", string.encode())
Producción :
String before encoding: Naïve
String after encoding: b'Na\xc3\xafve'
I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.
LinkedIn