Articles of encoding de caracteres

¿Cómo manejar los caracteres Unicode (no ASCII) en Python?

Estoy progtwigndo en Python y obteniendo información de una página web a través de la biblioteca urllib2 . El problema es que esa página me puede proporcionar caracteres no ASCII, como ‘ñ’ , ‘á’ , etc. En el momento en que urllib2 obtiene este carácter, provoca una excepción, como esta: File “c:\Python25\lib\httplib.py”, line 711, in […]

Escribir una cadena de conexión cuando la contraseña contiene caracteres especiales

Estoy usando SQLalchemy para un proyecto de Python, y quiero tener una cadena de conexión ordenada para acceder a mi base de datos. Así por ejemplo: engine = create_engine(‘postgres://user:pass@host/database’) El problema es que mi contraseña contiene una secuencia de caracteres especiales que se interpretan como delimitadores cuando bash conectarme. Me doy cuenta de que solo […]

La encoding da “el codec ‘ascii’ no puede codificar el carácter … ordinal no está dentro del rango (128)”

Estoy trabajando a través del proyecto de lector de RSS Django aquí . La fuente RSS leerá algo como “OKLAHOMA CITY (AP) – James Harden let”. La encoding de la fuente RSS lee encoding = “UTF-8”, así que creo que estoy pasando el utf-8 a markdown en el fragmento de código a continuación. El tablero […]

Python: ¿Desinfectar una cadena para Unicode?

Posible duplicado: Python UnicodeDecodeError – ¿Estoy entendiendo mal la encoding? Tengo una cadena que estoy tratando de hacer segura para la función unicode() : >>> s = ” foo “bar bar ” weasel” >>> s.encode(‘utf-8’, ‘ignore’) Traceback (most recent call last): File “”, line 1, in s.encode(‘utf-8’, ‘ignore’) UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0x93 […]

Problema de encoding en el motor de aplicaciones al enviar formularios de múltiples partes / formulario de datos

Tengo un formulario simple que envía una imagen al almacén de blob y un título para la imagen. Esto funciona en mi servidor de servidores local, pero cuando implemento mi código, las letras no ascii en el título se vuelven confusas con algún tipo de mezcla de ascii y hexadecimal. Por ejemplo, Ísland se convierte […]

Decodificando entidades HTML con Python

Estoy tratando de decodificar las entradas HTML desde aquí NYTimes.com y no puedo entender qué estoy haciendo mal. Tomar como ejemplo: “US Adviser’s Blunt Memo on Iraq: Time ‘to Go Home’” He intentado BeautifulSoup, decode (‘iso-8859-1’), y smart_str de django.utils.encoding sin ningún éxito.

¿Cómo anular la cotización de una cadena Unicode urlencoded en Python?

Tengo una cadena Unicode como “Tanım” que está codificada como “Tan% u0131m” de alguna manera. ¿Cómo puedo convertir esta cadena codificada de nuevo a unicode original. Aparentemente, urllib.unquote no admite Unicode.

Cómo adivinar de manera confiable la encoding entre MacRoman, CP1252, Latin1, UTF-8 y ASCII

En el trabajo, parece que nunca pasa una semana sin algún tipo de connipción, calamidad o catástrofe relacionada con la encoding. El problema generalmente se deriva de los progtwigdores que piensan que pueden procesar de manera confiable un archivo de “texto” sin especificar la encoding. Pero no puedes. Por lo tanto, se decidió a partir […]

¿Cuál es la diferencia entre codificar / decodificar?

Nunca he estado seguro de entender la diferencia entre deencoding y encoding de Str / Unicode. Sé que str().decode() es para cuando tiene una cadena de bytes que sabe que tiene una cierta encoding de caracteres, dado que el nombre de la encoding devolverá una cadena Unicode. Sé que unicode().encode() convierte caracteres Unicode en una […]

Una buena manera de obtener el conjunto de caracteres / encoding de una respuesta HTTP en Python

Buscando una manera fácil de obtener la información del conjunto de caracteres / encoding de una respuesta HTTP utilizando Python urllib2, o cualquier otra biblioteca de Python. >>> url = ‘http://some.url.value’ >>> request = urllib2.Request(url) >>> conn = urllib2.urlopen(request) >>> response_encoding = ? Sé que a veces está presente en el encabezado “Tipo de contenido”, […]