Articles of encoding de caracteres

¿Manera confiable de manejar caracteres no ASCII en Python?

Tengo una columna y una hoja de cálculo cuyo encabezado contiene caracteres no ASCII, por lo tanto: ‘Campaign’ Si meto esta cadena en el intérprete, obtengo: ‘\xc3\xaf\xc2\xbb\xc2\xbfCampaign’ La cadena es una de las claves en las rows de un csv.DictReader() Cuando bash rellenar un nuevo dict con el value de esta clave: spends[‘Campaign’] = 2 […]

Python HTMLParser: UnicodeDecodeError

Estoy usando HTMLParser para analizar las páginas que abro con urllib, y me estoy encontrando UnicodeDecodeError excepciones de UnicodeDecodeError al pasar algunas a HTMLParser . Intenté usar chardet para detectar las codificaciones y convertir a ascii , o utf-8 (los documentos no parecen decir lo que debería ser). la pérdida es aceptable, pero mientras las […]

Tratando de obtener la encoding de una página web Python y BeautifulSoup

Estoy intentando recuperar el juego de caracteres de una página web (esto cambiará todo el tiempo). En este momento estoy usando beautifulSoup para analizar la página y luego extraer el conjunto de caracteres del encabezado. Esto estaba funcionando bien hasta que me topé con un sitio que tenía … Mi código hasta ahora y que […]

Añadiendo alias de encoding a Python

¿Hay alguna manera de que pueda agregar un alias a Python para la encoding? Hay sitios en la web que utilizan la encoding ‘windows-1251’ pero tienen su conjunto de caracteres configurado para ganar-1251, por lo que me gustaría que win-1251 sea un alias de windows-1251

Python ASCII y Unicode descodifican error

Recibí este muy frustrante error al insertar una cierta cadena en mi base de datos. Dijo algo como: Python no puede decodificar caracteres de bytes, esperando unicode ” Después de mucho buscar, vi que podía superar este error al codificar mi cadena en Unicode . Intento hacer esto decodificando primero la cadena y luego codificándola […]

Unicode en Python – solo UTF-16?

Me sentí feliz en mi mundo de Python sabiendo que estaba haciendo todo en Unicode y codificando como UTF-8 cuando necesitaba enviar algo a un usuario. Entonces, uno de mis colegas me envió este artículo sobre UTF-8 y me confundió. El autor del artículo indica varias veces que UCS-2, la representación Unicode que Python utiliza […]

Codificación de caracteres en python para reemplazar ‘u2019’ con ‘

He intentado varias formas de codificar esto para el resultado final “BACK RUSHIN'” con el personaje más importante como el apóstrofe correcto ‘ . Me gustaría una forma de llegar a este resultado final utilizando algunas de las funciones integradas que Python tiene donde no hay discriminación entre una cadena normal y una cadena Unicode. […]

Problemas al extraer el XML de un documento de Word en francés con Python: se generan caracteres ilegales

Durante los últimos días he estado intentando crear un script que 1) extraería el XML de un documento de Word, 2) modificara ese XML y 3) usara el nuevo XML para crear y guardar un nuevo documento de Word. Con la ayuda de muchos usuarios de stackoverflow, finalmente pude encontrar un código que parece muy […]

Convertir un valor int a unicode

Estoy usando pyserial y necesito enviar algunos valores inferiores a 255. Si envío el int, el valor ascii del int se envía. Así que ahora estoy convirtiendo el int en un valor Unicode y lo envío a través del puerto serie. unichr(numlessthan255); However it throws this error: ‘ascii’ codec can’t encode character u’\x9a’ in position […]

Envuelve un flujo abierto con io.TextIOWrapper

¿Cómo puedo envolver un flujo binario abierto – un file Python 2, un io.BufferedReader Python 3, un io.BytesIO – en un io.TextIOWrapper ? Estoy tratando de escribir código que funcione sin cambios: Corriendo en Python 2. Corriendo en Python 3. Con flujos binarios generados desde la biblioteca estándar (es decir, no puedo controlar qué tipo […]