Articles of encoding

Función Python open (“x”, “r”), ¿cómo puedo saber o controlar qué encoding se supone que tiene el archivo?

Si una secuencia de comandos de Python utiliza la función de open(“filename”, “r”) para abrir, y luego leer, el contenido de un archivo de texto, ¿cómo puedo saber qué encoding debe tener este archivo? Tenga en cuenta que, dado que estoy ejecutando este script desde mi propio progtwig, si hay alguna forma de controlarlo a […]

¿Cómo convertir los caracteres codificados \ xXY a UTF-8 en Python?

Tengo un texto que contiene caracteres como “\ xaf”, “\ xbe”, que, como lo entiendo de esta pregunta , son caracteres codificados en ASCII. Quiero convertirlos en Python a sus equivalentes UTF-8. El string.encode(“utf-8”) habitual string.encode(“utf-8”) lanza UnicodeDecodeError . ¿Hay alguna forma mejor, por ejemplo, con la biblioteca estándar de codecs ? Muestra 200 caracteres […]

Python: LookupError: encoding desconocida: hexadecimal

Estoy usando una API de Twitter llamada Tweepy. Ha estado funcionando bien, luego reinicié el servidor y ahora obtengo esto: >>> import tweepy Traceback (most recent call last): File “”, line 1, in File “tweepy/__init__.py”, line 17, in from tweepy.streaming import Stream, StreamListener File “tweepy/streaming.py”, line 16, in json = import_simplejson() File “tweepy/utils.py”, line 83, […]

Django usa la encoding ANSI_X3.4-1968 en lugar de UTF-8

Estoy ejecutando el servidor Ubuntu 14.04 con Django + Gunicorn + Nginx. La configuración de Nginx contiene la línea para el conjunto de caracteres utf-8. Salida de la configuración regional para el usuario “subasta” (este usuario ejecuta el servidor): LANG=en_US.UTF-8 LANGUAGE= LC_CTYPE=”en_US.utf8″ LC_NUMERIC=”en_US.utf8″ LC_TIME=”en_US.utf8″ LC_COLLATE=”en_US.utf8″ LC_MONETARY=”en_US.utf8″ LC_MESSAGES=”en_US.utf8″ LC_PAPER=”en_US.utf8″ LC_NAME=”en_US.utf8″ LC_ADDRESS=”en_US.utf8″ LC_TELEPHONE=”en_US.utf8″ LC_MEASUREMENT=”en_US.utf8″ LC_IDENTIFICATION=”en_US.utf8″ LC_ALL=en_US.utf8 Codificación […]

Error de deencoding de Unicode usando codecs.open ()

Me he encontrado con un problema de encoding de caracteres de la siguiente manera: rating = ‘Barntillåten’ new_file = codecs.open(os.path.join(folder, “metadata.xml”), ‘w’, ‘utf-8’) new_file.write( “”” %s “”” % (values[‘rating_system’], rating)) El error que recibo es: File “./assetshare.py”, line 314, in write_file “”” % (values[‘rating_system’], rating)) Sé que el error de encoding está relacionado con Barntillåten […]

¿La expresión regular de Python contra la encoding de caracteres Latin-1?

Tengo un archivo que contiene (creo) encoding latin-1. Sin embargo, no puedo hacer coincidir las expresiones regulares con este archivo. Si cat el archivo, se ve bien: Sin embargo, no puedo encontrar la cadena: In [12]: txt = open(“b”).read() In [13]: print txt In [14]: txt Out[14]: ‘\x00 \x00 \x00\x00\r\x00\n’ In [22]: txt.find(“Vw_IncidentPipeline_Report”) Out[22]: -1 […]

¿Por qué mi progtwig Python obtiene UnicodeDecodeError en IntelliJ pero está bien desde la línea de comandos?

Tengo un progtwig simple que carga un archivo .json que contiene un personaje divertido. El progtwig (ver más abajo) funciona bien en la Terminal, pero recibe este error en IntelliJ: UnicodeDecodeError: el codec ‘ascii’ no puede decodificar el byte 0xe2 en la posición 2: ordinal no está en el rango (128) El código crucial es: […]

¿Cómo mostrar los caracteres chinos dentro de un dataframe de pandas?

Puedo leer un archivo csv en el que hay una columna que contiene caracteres chinos (otras columnas son inglés y números). Sin embargo, los caracteres chinos no se muestran correctamente. ver foto abajo pd.read_csv() archivo csv con pd.read_csv() . Cualquiera de las display(data06_16) o data06_16.head() no mostrará los caracteres chinos correctamente. Intenté agregar las siguientes […]

Unicode regex para coincidir con una clase de caracteres de caracteres chinos

^[一二三四五六七]、 no coincide con 一、 Pero ^一、 coincide con 一、 . ¿Mi forma de especificar una clase de caracteres de caracteres chinos es incorrecta? Leí la expresión regular de un archivo.

Error de encoding al deserializar un objeto json de Google

Como ejercicio, construí un pequeño script que consulta la API JSON de Google Suggest. El código es bastante simple: query = ‘a’ url = “http://clients1.google.co.jp/complete/search?hl=ja&q=%s&json=t” %query response = urllib.urlopen(url) result = json.load(response) UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0x83 in position 0: invalid start byte Si bash read() el objeto de respuesta, esto es lo […]