Articles of encoding

Cambio de la “encoding de configuración regional preferida” en Python 3 en Windows

Estoy usando Python 3 (recientemente cambiado de Python 2). Mi código generalmente se ejecuta en Linux, pero también a veces (no a menudo) en Windows. De acuerdo con la documentación de Python 3 para open() , la encoding predeterminada para un archivo de texto es de locale.getpreferredencoding() si no se proporciona el locale.getpreferredencoding() encoding . […]

Error de encoding en Python con caracteres chinos

Soy un principiante que tiene problemas para decodificar varias docenas de archivos CSV con números + caracteres chinos (simplificados) a UTF-8 en Python 2.7. No conozco la encoding de los archivos de entrada, así que he probado todas las codificaciones posibles que conozco: GB18030, UTF-7, UTF-8, UTF-16 y UTF-32 (LE & BE). Además, en buena […]

Cómo imprimir una cadena Unicode en Python en la consola de Windows

Estoy trabajando en una aplicación de Python que puede imprimir texto en varios idiomas en la consola en múltiples plataformas. El progtwig funciona bien en todas las plataformas UNIX, pero en Windows hay errores al imprimir cadenas Unicode en la línea de comandos. Ya hay un hilo relevante con respecto a esto: ( el cambio […]

Linux / Python: codificando una cadena Unicode para imprimir

Tengo una aplicación Python 2.6 bastante grande con muchas declaraciones impresas esparcidas. Estoy usando cadenas Unicode en todo, y por lo general funciona muy bien. Sin embargo, si redirecciono la salida de la aplicación (como “myapp.py> output.txt”), ocasionalmente obtengo errores como este: UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\xa1′ in position 0: ordinal not in […]

Imprimiendo una cadena codificada en utf-8

Estoy usando BeautifulSoup para extraer algo de texto de un HTML, pero simplemente no puedo averiguar cómo imprimirlo correctamente en la pantalla (o en un archivo). Así es como se ve mi clase que contiene el texto: class Thread(object): def __init__(self, title, author, date, content = u””): self.title = title self.author = author self.date = […]

¿Para qué se utiliza unicode_literals?

Me sale un problema extraño con __future__.unicode_literals en Python. Sin importar unicode_literals obtengo el resultado correcto: # encoding: utf-8 # from __future__ import unicode_literals name = ‘helló wörld from example’ print name Pero cuando agrego la importación unicode_literals : # encoding: utf-8 from __future__ import unicode_literals name = ‘helló wörld from example’ print name Tengo […]

Python – tratar con archivos de encoding mixta

Tengo un archivo que es en su mayoría UTF-8, pero algunos caracteres de Windows-1252 también se han introducido. Creé una tabla para asignar desde los caracteres de Windows-1252 (cp1252) a sus contrapartes de Unicode, y me gustaría usarla para corregir los caracteres mal codificados, por ejemplo cp1252_to_unicode = { “\x85”: u’\u2026′, # … “\x91”: u’\u2018′, […]

¿Cómo evitar que str codifique caracteres Unicode como códigos hexadecimales?

Cuando print una cadena Unicode en Python directamente, veo una cadena con los mismos caracteres que tengo en mi cadena. Cuando lo incrusté en algún contenedor (puesto en una lista, en un mapa, etc.), la representación de str convierte los caracteres Unicode en representación de \ uXXXX. Curiosamente, puedo llamar a una print en este […]

abridor urllib2 proporcionando juego de caracteres incorrecto

Cuando abro el url y lo leo, no lo puedo reconocer. Pero cuando verifico el encabezado de contenido dice que está codificado como utf-8. Así que traté de convertirlo a Unicode y se quejó de UnicodeDecodeError: el códec ‘ascii’ no puede decodificar el byte 0x8b en la posición 1: ordinal no en el rango (128) […]

Reducir el número de niveles para grandes variables categóricas

¿Hay algunas bibliotecas o paquetes listos para usar en Python o R para reducir la cantidad de niveles para grandes factores categóricos? Quiero lograr algo similar a R: “categorizar” las variables categóricas pero codificar en los factores más frecuentes de top-k y “otros”.