Articles of caracteres

¿Existe una función de biblioteca de Python que intente adivinar la encoding de caracteres de algunos bytes?

Estoy escribiendo un software de procesamiento de correo en Python que se encuentra con bytes extraños en los campos de encabezado. Sospecho que esto es sólo un correo mal formado; el mensaje en sí dice ser nosotros-ascii, así que no creo que haya una verdadera encoding, pero me gustaría sacar una cadena Unicode que se […]

¿Cómo encontrar caracteres chinos o japoneses en una cadena en Python?

Como: str = ‘sdf344asfasf天地方益3権sdfsdf’ Añadir () a caracteres chinos y japoneses: strAfterConvert = ‘sdfasfasf(天地方益)3(権)sdfsdf’

abridor urllib2 proporcionando juego de caracteres incorrecto

Cuando abro el url y lo leo, no lo puedo reconocer. Pero cuando verifico el encabezado de contenido dice que está codificado como utf-8. Así que traté de convertirlo a Unicode y se quejó de UnicodeDecodeError: el códec ‘ascii’ no puede decodificar el byte 0x8b en la posición 1: ordinal no en el rango (128) […]

Python 3 UnicodeDecodeError – ¿Cómo depuro UnicodeDecodeError?

Tengo un archivo de texto que el editor (la Comisión de Bolsa de Valores de EE. UU.) Afirma que está codificado en UTF-8 ( https://www.sec.gov/files/aqfs.pdf , sección 4). Estoy procesando las líneas con el siguiente código: def tags(filename): “””Yield Tag instances from tag.txt.””” with codecs.open(filename, ‘r’, encoding=’utf-8′, errors=’strict’) as f: fields = f.readline().strip().split(‘\t’) for line […]

Python: parece que Python 3.1 no puede manejar archivos codificados en UTF-16.

Estoy tratando de ejecutar algún código para simplemente ir a través de un montón de archivos y escribir aquellos que sean archivos .txt en el mismo archivo, eliminando todos los espacios. Aquí hay un código simple que debería hacer el truco: for subdir, dirs, files in os.walk(rootdir): for file in files: if ‘.txt’ in file: […]

Obtenga una lista de todas las codificaciones que Python puede codificar para

Estoy escribiendo un script que intentará codificar bytes en muchas codificaciones diferentes en Python 2.6. ¿Hay alguna forma de obtener una lista de codificaciones disponibles que pueda repetir? La razón por la que estoy tratando de hacer esto es porque un usuario tiene un texto que no está codificado correctamente. Hay personajes divertidos. Conozco al […]

Obteniendo dos caracteres de cadena en python

¿Cómo obtener en python desde una cadena no un carácter, sino dos? Yo tengo: long_str = ‘abcd’ for c in long_str: print c y me da como a b c d pero necesito conseguir ab cd Soy nuevo en Python … ¿hay alguna manera?

Python, convierte el carácter de 4 bytes para evitar el error de MySQL “Valor de cadena incorrecto:”

Necesito convertir (en Python) un char de 4 bytes en algún otro carácter. Esto es para insertarlo en mi base de datos utf-8 mysql sin obtener un error como: “Valor de cadena incorrecto: ‘\ xF0 \ x9F \ x94 \ x8E’ para columna ‘línea’ en la fila 1” La advertencia generada al insertar unicode de […]

Problemas de encoding y deencoding de correo electrónico de Python

Básicamente, quiero leer todos los nuevos correos electrónicos de una bandeja de entrada y ponerlos en una base de datos. La razón por la que uso python es porque tiene imaplib , pero no sé nada al respecto. Actualmente, tengo algo como esto: def primitive_get_text_blocks(email_message_instance): maintype = email_message_instance.get_content_maintype() if maintype == ‘multipart’: return_parts = “” […]

Bytes en una cadena de Python Unicode

En Python 2, las cadenas Unicode pueden contener tanto unicode como bytes: a = u’\u0420\u0443\u0441\u0441\u043a\u0438\u0439 \xd0\xb5\xd0\xba’ Entiendo que esto no es absolutamente algo que uno deba escribir en su propio código, pero esta es una cadena con la que tengo que lidiar. Los bytes en la cadena anterior son UTF-8 para ек (Unicode \u0435\u043a ). […]