Articles of encoding

¿Cómo normalizar la encoding Unicode para la conversión de iso-8859-15 en python?

Quiero convertir la cadena Unicode en iso-8859-15. Estas cadenas incluyen el carácter u”\u2019″ ( u”\u2019″ derecha, ver http://www.fileformat.info/info/unicode/char/2019/index.htm ) que no forma parte de los caracteres iso-8859-15 conjunto. En Python, ¿cómo normalizar los caracteres Unicode para que coincidan con la encoding iso-8859-15? He mirado el módulo de unicodedata sin éxito. Me las arreglo para hacer […]

Leyendo la encoding del encabezado XML

Tengo una serie de archivos XML que me gustaría procesar con un script, convirtiéndolos de cualquier encoding que estén en UTF-8. Usando el código dado en esta gran respuesta , puedo hacer la conversión, pero ¿cómo puedo leer la encoding dada en el encabezado XML? Por ejemplo, tengo muchos archivos que ya están en UTF-8, […]

¿Cuál es la forma correcta de codificar los caracteres de escape en Python 2 sin matar a Unicode?

Creo que me estoy volviendo loco con las cuerdas Unicode de Python. Estoy tratando de codificar caracteres de escape en una cadena Unicode sin escapar de los caracteres reales de Unicode. Estoy recibiendo esto: In [14]: a = u”Example\n” In [15]: b = u”Пример\n” In [16]: print a Example In [17]: print b Пример In […]

UnicodeEncodeError: el codec ‘ascii’ no puede codificar el carácter u ‘\ u2019’ en la posición 47: ordinal no está dentro del rango (128)

Estoy usando Python 2.7 y MySQLdb 1.2.3. Intenté todo lo que encontré en stackoverflow y otros foros para manejar los errores de encoding que está lanzando mi script. Mi script lee los datos de todas las tablas en una base de datos MySQL de origen, los escribe en un objeto StringIO.StringIO python y luego carga […]

UnicodeDecodeError en el depurador de PyCharm

Es una referencia a UnicodeDecodeError durante el uso de cyryllic . Tengo el mismo problema con Python 3.3 y Pycharm 2.7.2 Intenté codificar el código en el código, especificando manualmente la encoding en las opciones de Pycharm, pero sin efecto. Todavía intenta abrir el archivo utf-8 con cp1251 lib. Connected to pydev debugger (build 129.314) […]

Problemas con MySQL y Python Select Statement

Gracias por tomarse el tiempo para leer esto. Va a ser un largo post para explicar el problema. No he podido encontrar una respuesta en todas las fonts habituales. Problema: tengo un problema con el uso de la instrucción select con python para recuperar datos de una tabla en una base de datos mysql. Sistema […]

Problema de conversión de Python UTF-8

En mi base de datos, he almacenado algunos caracteres UTF-8. Por ejemplo, ‘α’ en el campo “nombre” A través de Django ORM, cuando leo esto, obtengo algo como >>> p.name u’\xce\xb1′ >>> print p.name α Esperaba ‘α’. Después de algunas excavaciones, creo que si lo hice. >>> a = ‘α’ >>> a ‘\xce\xb1’ Entonces, cuando […]

Codificación de cadena de Python para una variable

Soy consciente del hecho de que para Python <3, la codificación Unicode para la cadena 'Plants vs. Zombies ‰ ã ¢ 2' es la siguiente: u”Plants vs. Zombies‰ã¢ 2″.encode(“utf-8”) ¿Qué pasa si tengo una variable (por ejemplo, appName) en lugar de una cadena puedo hacerlo así: appName = “Plants vs. Zombies‰ã¢ 2” u+appName.encode(“utf-8”) Por: appName […]

Python ElementTree no convertirá espacios sin interrupciones cuando use UTF-8 para salida

Estoy tratando de analizar, manipular y generar HTML usando el ElementTree de Python: import sys from cStringIO import StringIO from xml.etree import ElementTree as ET from htmlentitydefs import entitydefs source = StringIO(“”” Less than < Non-breaking space   “””) parser = ET.XMLParser() parser.parser.UseForeignDTD(True) parser.entity.update(entitydefs) etree = ET.ElementTree() tree = etree.parse(source, parser=parser) for p in tree.findall(‘.//p’): […]

¿Cómo obtengo una expresión regular para reconocer caracteres no ASCII como letras?

Estoy extrayendo información de una página web en sueco. Esta página está usando caracteres como: öäå. Mi problema es que cuando imprimo la información, los öäå se han ido. Estoy extrayendo la información usando Beautiful Soup. Creo que el problema es que hago un montón de expresiones regulares en las cadenas que location = re.sub(r'([^\w])+’, […]