Articles of caracteres

¿Cómo obtengo una expresión regular para reconocer caracteres no ASCII como letras?

Estoy extrayendo información de una página web en sueco. Esta página está usando caracteres como: öäå. Mi problema es que cuando imprimo la información, los öäå se han ido. Estoy extrayendo la información usando Beautiful Soup. Creo que el problema es que hago un montón de expresiones regulares en las cadenas que location = re.sub(r'([^\w])+’, […]

obtener la encoding especificada en magic line / shebang (desde dentro del módulo)

Si especifico la encoding de caracteres (como lo sugiere PEP 263 ) en la “línea mágica” o shebang de un módulo de python como # -*- coding: utf-8 -*- ¿Puedo recuperar esta encoding desde ese módulo? (Trabajando en Windows 7 x64 con Python 2.7.9) Intenté (sin éxito) recuperar la encoding predeterminada o shebang # -*- […]

¿Cómo puedo obtener caracteres Unicode de un parámetro de URL?

Necesito usar una solicitud GET para enviar JSON a mi servidor a través de un cliente de JavaScript, así que comencé a repetir las respuestas para asegurarme de que no se pierda nada en la traducción. No parece haber un problema con el texto normal, pero tan pronto como incluyo un carácter Unicode de cualquier […]

Mapeo de codificaciones de caracteres a bytes máximos por carácter

Estoy buscando una tabla que asigne una encoding de caracteres dada a los bytes (máximo, en el caso de las codificaciones de longitud variable) por carácter. Para codificaciones de ancho fijo, esto es bastante fácil, aunque no sé, en el caso de algunas de las codificaciones más esotéricas, cuál es ese ancho. Para UTF-8 y […]

Pitón. Representación de frases, ¿cómo cambiar?

No sé cuál es la encoding presente en estas frases (y también me gustaría una respuesta a esto). Principalmente, me gustaría cambiarle mis frases. Por ejemplo: Hola Mundo! se convierte en Hello% 20World!% 0A Olá mundo! se convierte en Ol% C3% A1% 20mundo!% 0A% 0A Me gustaría una solución de python para esto. Si tengo […]

La mejor forma de descodificar la encoding Unicoding desconocida en Python 2.5

¿Lo tengo todo bien? De todos modos, estoy analizando un montón de html, pero no siempre sé qué encoding tiene que ser (un sorprendente número de mentira). El siguiente código muestra fácilmente lo que he estado haciendo hasta ahora, pero estoy seguro de que hay una mejor manera. Tus sugerencias serían muy apreciadas. import logging […]

¿Cuál es la diferencia entre ‘coding = utf8’ y ‘- * – coding: utf-8 – * -‘?

¿Hay alguna diferencia entre usar #coding=utf8 y # -*- coding: utf-8 -*- Qué pasa # encoding: utf-8

La deencoding Python Unicode no es compatible

Estoy teniendo un problema con mi encoding en Python. He intentado diferentes métodos pero parece que no puedo encontrar la mejor manera de codificar mi salida a UTF-8. Esto es lo que estoy tratando de hacer: result = unicode(google.searchGoogle(param), “utf-8”).encode(“utf-8”) searchGoogle devuelve el primer resultado de Google para param . Este es el error que […]

¿Cómo generar una lista de cadenas utf-8 como está en Python?

Bueno, la encoding y deencoding de caracteres a veces me frustra mucho. Así que sabemos que u’\u4f60\u597d’ es la encoding utf-8 de 你好 , >>> print hellolist [u’\u4f60\u597d’] >>> print hellolist[0]你好 Ahora lo que realmente quiero obtener de la salida o escribir en un archivo es [u’你好’] , pero es [u’\u4f60\u597d’] todo el tiempo, así […]

UnicodeDecodeError: el codec ‘utf8’ no puede decodificar el byte 0xc3 en la posición 34: final inesperado de los datos

Estoy tratando de escribir un scrapper, pero tengo problemas con la encoding. Cuando intenté copiar la cadena que estaba buscando en mi archivo de texto, python2.7 me dijo que no reconocía la encoding, a pesar de que no tenía caracteres especiales. No sé si eso es información útil. Mi código se ve así: from urllib […]