Articles of caracteres

Codificación del asunto del correo (SMTP) en Python con caracteres no ASCII

Estoy usando el módulo Python MimeWriter para construir un mensaje y smtplib para enviar un mensaje de correo construido es: file msg.txt: ———————– Content-Type: multipart/mixed; from: me to: me@abc.com subject: 主題Content-Type: text/plain;charset=utf-8主題 Utilizo el siguiente código para enviar un correo: import smtplib s=smtplib.SMTP(‘smtp.abc.com’) toList = [‘me@abc.com’] f=open(‘msg.txt’) #above msg in msg.txt file msg=f.read() f.close() s.sendmail(‘me@abc.com’,toList,msg) […]

Problemas de conversión de UTF-8 latin-1, Python Django

ok, mi problema es que tengo la cadena ‘\ 222 \ 222 \ 223 \ 225’ que se almacena como latin-1 en la base de datos. Lo que obtengo de django (imprimiéndolo) es la siguiente cadena, ‘ââââ ¢’, que supongo que es la conversión de UTF. Ahora necesito pasar la cadena a una función que […]

¿Cómo puedo filtrar los caracteres Emoji de mi entrada para poder guardar en MySQL <5.5?

Tengo una aplicación Django que toma datos de tweets de la API de Twitter y los guarda en una base de datos MySQL. Por lo que sé (todavía me preocupo por los puntos más finos de la encoding de caracteres) estoy usando UTF-8 en todas partes, incluida la encoding y la comstackción de MySQL, que […]

Imprime una lista que contiene caracteres chinos en Python

Mi código se ve como: # -*- coding: utf-8 -*- print [“asdf”, “中文”] print [“中文”] print “中文” La salida en la consola de Eclipse es muy extraña: [‘asdf’, ‘\xe4\xb8\xad\xe6\x96\x87’] [‘\xe4\xb8\xad\xe6\x96\x87’]中文 Mi primera pregunta es: ¿por qué la última línea obtuvo la salida correcta y las otras no? Y mi segunda pregunta es: ¿cómo puedo corregir […]

Ansi a UTF-8 usando python causando error

Mientras intentaba escribir un progtwig de python que convierte Ansi a UTF-8, encontré esto https://stackoverflow.com/questions/14732996/how-can-i-convert-utf-8-to-ansi-in-python que convierte UTF-8 a Ansi. Pensé que solo funcionaría invirtiendo el orden. Así que codifiqué file_path_ansi = “input.txt” file_path_utf8 = “output.txt” #open and encode the original content file_source = open(file_path_ansi, mode=’r’, encoding=’latin-1′, errors=’ignore’) file_content = file_source.read() file_source.close #write file_target = […]

Codificación Python – No se pudo decodificar a utf8

Tengo una base de datos sqlite que fue rellenada por un progtwig externo. Estoy tratando de leer los datos con python. Cuando bash leer los datos, aparece el siguiente error: Error operacional: no se pudo decodificar a UTF-8 Si abro la base de datos en el administrador de sqlite y miro los datos de los […]

¿Cómo arreglar la encoding utf-8 rota en Python?

Mi cadena es Niệm Bồ Tát (Thiá»n sÆ° Nhất Hạnh) y quiero decodificarlo a Niệm Bồ Tát (Thiền sư Nhất Hạnh) . Veo que en ese sitio puedo hacer eso http://www.enderminh.com/minh/utf8-to-unicode-converter.aspx y empiezo a probar por Python mystr = ’09. Bát Nhã Tâm Kinh’ mystr.decode(‘utf-8’) pero en realidad no es correcto porque la cadena original […]

Script de Python para convertir de UTF-8 a ASCII

Estoy tratando de escribir un script en python para convertir archivos utf-8 en archivos ASCII: #!/usr/bin/env python # *-* coding: iso-8859-1 *-* import sys import os filePath = “test.lrc” fichier = open(filePath, “rb”) contentOfFile = fichier.read() fichier.close() fichierTemp = open(“tempASCII”, “w”) fichierTemp.write(contentOfFile.encode(“ASCII”, ‘ignore’)) fichierTemp.close() Cuando ejecuto este script tengo el siguiente error: UnicodeDecodeError: el codec […]

Python obtener código de caracteres en diferente encoding?

Dado un código de carácter como número entero en una encoding, ¿cómo puede obtener el código de carácter en, digamos, utf-8 y nuevamente como entero?

¿Existe una función de biblioteca de Python que intente adivinar la encoding de caracteres de algunos bytes?

Estoy escribiendo un software de procesamiento de correo en Python que se encuentra con bytes extraños en los campos de encabezado. Sospecho que esto es sólo un correo mal formado; el mensaje en sí dice ser nosotros-ascii, así que no creo que haya una verdadera encoding, pero me gustaría sacar una cadena Unicode que se […]