Articles of codificación

Codificación en PostgreSQL, Python, Jinja2

Tengo un problema con la encoding en mi aplicación y no encontré la solución en ningún sitio web. Aquí está el escenario: PostgreSQL con encoding UTF-8 ( CREATE DATABASE xxxx WITH ENCODING ‘UTF8’ ) Lógica de Python también con encoding UTF-8 ( # -*- coding: utf-8 -*- ) Jinja2 para mostrar mis páginas HTML. Python […]

“Surrogateescape” no puede escapar de ciertos personajes

Con respecto a la lectura y escritura de archivos de texto en Python, uno de los principales colaboradores de Python menciona esto con respecto al surrogateescape errores Unicode de surrogateescape : [surrogateescape] maneja los errores de deencoding guardando los datos en una pequeña parte del espacio de puntos de código Unicode. Al codificar, convierte esos […]

¿Es Python 3.3 mejor que 2.7 para descodificar y volver a codificar texto web raspado a UTF-8? Como mucho mejor?

Aparentemente hay un millón de preguntas relacionadas con los errores de Python Unicode donde el …ordinal [is] not in range(128) . Aparentemente, la gran mayoría involucra Python 2.x. Sé de estos errores porque actualmente estoy codificando, decodificando el infierno. Para un proyecto paralelo, rasco las páginas web e bash normalizar los datos de texto para […]

¿Cómo escribo una encoding personalizada en Python para limpiar mis datos?

Sé que he hecho esto antes en otro trabajo, pero no puedo recordar lo que hice. Tengo una base de datos llena de campos varchar y memo que se cortaron y pegaron desde Office, páginas web y quién sabe dónde más. Esto está empezando a causar errores de encoding para mí. Ya que Python tiene […]

UnicodeDecodeError al leer un archivo CSV en Pandas con Python para el cirílico búlgaro

Recibo UnicodeDecodeError al leer un archivo CSV en Pandas con Python. UnicodeDecodeError: el codec ‘utf-8’ no puede decodificar el byte 0xc0 en la posición 0: el byte de inicio no es válido. No hay ningún símbolo cirílico en los datos. ¿Es debido a la configuración para el cirílico búlgaro? ¿Sabes qué poner? Intenté con el […]

cómo interpretar este error “UnicodeDecodeError: el códec ‘ascii’ no puede decodificar el byte 0xe2 en la posición 164: ordinal no está en el rango (128)”

Estoy tratando de ejecutar el siguiente código en Python 3: def func(file): for file in os.listdir(cwd): if file.endswith(‘.html’): f = open(file, “r+”) text = re.sub(r’cat’,’ ‘, f.read()) f.close() f = open(file, “w”) f.write(text) f.close() file = os.listdir(cwd) func(file) Luego obtuve el File “/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/encodings/ascii.py”, line 26, in decode return codecs.ascii_decode(input, self.errors)[0] error File “/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/encodings/ascii.py”, line 26, […]

Conversión de utf-16 a utf-8 en Python 3

Estoy progtwigndo en Python 3 y tengo un pequeño problema que no puedo encontrar ninguna referencia a él en la red. Por lo que entiendo, la cadena predeterminada es utf-16, pero debo trabajar con utf-8, no puedo encontrar el comando que se convertirá del predeterminado a utf-8. Apreciaría mucho tu ayuda.

¿Buscando contenidos de archivos de texto con varias codificaciones con Python?

Estoy teniendo problemas con la encoding de texto variable al abrir archivos de texto para encontrar una coincidencia en el contenido de los archivos. Estoy escribiendo un script para escanear el sistema de archivos en busca de archivos de registro con contenidos específicos para copiarlos en un archivo. Los nombres a menudo se cambian, por […]

¿Cómo puedo resolver UnicodeDecodeError en Django?

Estoy recibiendo este error en Django: UnicodeDecodeError at /category/list/ ‘utf8’ codec can’t decode byte 0xf5 in position 7: invalid start byte Request Method: GET Request URL: … Django Version: 1.3.1 Exception Type: UnicodeDecodeError Exception Value: ‘utf8’ codec can’t decode byte 0xf5 in position 7: invalid start byte Exception Location: /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/json/encoder.py in iterencode, line 264 … […]

manejar cadenas de código no ascii en python

Es realmente confuso manejar el código no-ascii en python. ¿Alguien puede explicar? Estoy intentando leer un archivo de texto plano y reemplazar todos los caracteres no alfabéticos con espacios. Tengo una lista de personajes: ignorelist = (‘!’, ‘-‘, ‘_’, ‘(‘, ‘)’, ‘,’, ‘.’, ‘:’, ‘;’, ‘”‘, ‘\”, ‘?’, ‘#’, ‘@’, ‘$’, ‘^’, ‘&’, ‘*’, ‘+’, […]