Articles of unicode

Cadena truncada a byte en Python

Tengo una función aquí para truncar una cadena dada a una longitud de byte dada: LENGTH_BY_PREFIX = [ (0xC0, 2), # first byte mask, total codepoint length (0xE0, 3), (0xF0, 4), (0xF8, 5), (0xFC, 6), ] def codepoint_length(first_byte): if first_byte < 128: return 1 # ASCII for mask, length in LENGTH_BY_PREFIX: if first_byte & mask […]

Eliminando Unicode \ uxxxx en la cadena de JSON usando Regex

Tengo un archivo JSON que almacena datos de texto llamados stream_key.json : {“text”:”RT @WBali: Ideas for easter? Digging in with Seminyak\u2019s best beachfront view? \nRSVP: b&f.wbali@whotels.com https:\/\/t.co\/fRoAanOkyC”} Como podemos ver que el texto en el archivo json contiene unicode \u2019 , quiero eliminar este código usando expresiones regulares en Python 2.7, este es mi código […]

¿Qué encoding de caracteres está utilizando el terminal IPython?

Solía ​​pensar que tenía todo este material de encoding bastante resuelto. Parece que estoy equivocado porque no puedo explicar lo que está pasando aquí. Lo que estaba tratando de hacer es usar el módulo tabulate para imprimir una tabla con un formato agradable usando from tabulate import tabulate s = tabulate([[1,2],[3,4]], [“x”,”y”], tablefmt=”fancy_grid”) print(s) en […]

abrir archivo con un nombre de archivo Unicode?

Parece que no puedo abrir un archivo que tenga un nombre de archivo Unicode. Digamos que lo hago: for i in os.listdir(): open(i, ‘r’) Cuando trato de buscar alguna solución, siempre recibo páginas sobre cómo leer y escribir una cadena Unicode en un archivo, no cómo abrir un archivo con file() o open() que tiene […]

¿Debo usar la cadena Unicode por defecto?

¿Se considera una buena práctica elegir una cadena Unicode sobre una cadena normal cuando se codifica en Python? Principalmente trabajo en la plataforma Windows, donde la mayoría de los tipos de cadenas son Unicode en estos días (es decir, .NET String, ‘_UNICODE’ activado de forma predeterminada en un nuevo proyecto de c ++, etc.). Por […]

ConfigParser con elementos Unicode

Mis problemas con ConfigParser continúan. Parece que no soporta muy bien Unicode. El archivo de configuración se guarda de hecho como UTF-8, pero cuando ConfigParser lo lee, parece estar codificado en otra cosa. Asumí que era latin-1 y pensé que la optionxform podría ayudar: — configfile.cfg — [rules] Häjsan = 3 ☃ = my snowman […]

Establecer encoding en Python 3 CGI scripts

Cuando escribo un script CGI de Python 3.1 , me encuentro con horribles UnicodeDecodeErrors. Sin embargo, cuando se ejecuta el script en la línea de comandos, todo funciona. Parece que open() y print() usan el valor de retorno de locale.getpreferredencoding() para saber qué encoding usar de forma predeterminada. Cuando se ejecuta en la línea de […]

Convertir un objeto Unicode en una cadena latina con entidades

Tengo un objeto Unicode como x = u”a & 日本語: enči hallöle” y desea convertirlo en una cadena latin-1 con entidades html como “a & 日本語: enči hallöle” La razón detrás de esto es que quiero que mis usuarios puedan ingresar datos Unicode, pero mi base de datos heredada donde necesito guardar mis datos solo […]

¿Por qué la deencoding de Python reemplaza más que los bytes no válidos de una cadena codificada?

Al intentar decodificar una página html utf-8 codificada no válida, se obtienen resultados diferentes en python, firefox y chrome. El fragmento codificado no válido de la página de prueba se parece a ‘PREFIX\xe3\xabSUFFIX’ >>> fragment = ‘PREFIX\xe3\xabSUFFIX’ >>> fragment.decode(‘utf-8’, ‘strict’) … UnicodeDecodeError: ‘utf8’ codec can’t decode bytes in position 6-8: invalid data ACTUALIZACIÓN : Esta […]

Python-pedidos: obteniendo el encabezado del contenido de la respuesta sin consumirlo todo.

Al usar python-pedidos y python-magic, me gustaría probar el tipo mime de un recurso web sin recuperar todo su contenido (especialmente si este recurso es, por ejemplo, un archivo ogg o un archivo PDF). Basado en el resultado, podría decidir buscarlo todo. Sin embargo, llamar al método de texto después de haber probado el tipo […]