Articles of encoding

¿Cuál es la diferencia entre ‘coding = utf8’ y ‘- * – coding: utf-8 – * -‘?

¿Hay alguna diferencia entre usar #coding=utf8 y # -*- coding: utf-8 -*- Qué pasa # encoding: utf-8

La deencoding Python Unicode no es compatible

Estoy teniendo un problema con mi encoding en Python. He intentado diferentes métodos pero parece que no puedo encontrar la mejor manera de codificar mi salida a UTF-8. Esto es lo que estoy tratando de hacer: result = unicode(google.searchGoogle(param), “utf-8”).encode(“utf-8”) searchGoogle devuelve el primer resultado de Google para param . Este es el error que […]

¿Cómo cambiar una cadena a Unicode en Python 2?

Tengo una cadena como s1 = “\xed\xf3\xb4\x90″ . >>> x = u”\xed\xf3\xb4\x90” >>> print x íó´ ¿Cómo podría usar s1 para imprimir esto? Yo he tratado: s1= “\xed\xf3\xb4\x90” print unicode(s1) Pero no pude conseguirlo. ¿Cómo podría obtener íó´ ?

El códec ‘ascii’ no puede decodificar el byte (problema al usar django)

Escribí una clase de análisis HTML simple en Python y parece que funciona bien y luego trato de usarlo con django y me sale este error: ‘ascii’ codec can’t decode byte 0xc2 in position 54465: ordinal not in range(128) lo cual es extraño porque agregué esto: # encoding: utf-8 al tope de mi clase. Realmente […]

entendiendo decode () y encode () unicode

Simplemente no puedo ver cómo funcionan las funciones decode() y encode() en python2.7 Probé la siguiente statement >>> s = u’abcd’ >>> s.encode(‘utf8’) ‘abcd’ >>> s.encode(‘utf16’) ‘\xff\xfea\x00b\x00c\x00d\x00’ >>> s.encode(‘utf32’) ‘\xff\xfe\x00\x00a\x00\x00\x00b\x00\x00\x00c\x00\x00\x00d\x00\x00\x00’ Hasta aquí, creo que está claro; encode() traduce un código Unicode en la cadena de bytes utf-8/16/32 correspondiente. Pero cuando codifico: >>> s.decode(‘utf8′) u’abcd’ >>> […]

Conversión de doble barra diagonal utf-8

¡No puedo conseguir que esto funcione! Tengo un archivo de texto de un analizador de archivos de juegos guardados con un montón de nombres chinos UTF-8 en forma de byte, como este en source.txt: \ xe6 \ x89 \ x8e \ xe5 \ x8a \ xa0 \ xe6 \ x8b \ x89 Pero, no importa […]

códec ascii no puede decodificar byte 0xe9

He investigado y visto soluciones, pero ninguna me ha funcionado. Python – el codec ‘ascii’ no puede decodificar byte Esto no funcionó para mí. Y sé que el 0xe9 es el carácter é. Pero todavía no puedo averiguar cómo hacer que esto funcione, aquí está mi código output_lines = [”, ”, ”, ”, ”, ”, […]

Analizar archivos XML enormes y mal codificados en Python

He estado trabajando en el código que analiza los archivos XML externos. Algunos de estos archivos son enormes, hasta gigabytes de datos. No hace falta decir que estos archivos deben analizarse como un flujo porque cargarlos en la memoria es demasiado ineficiente y, a menudo, conduce a problemas de OutOfMemory. He usado las bibliotecas miniDOM, […]

Almacenar un valor hash binario en un campo de modelo de Django

Tengo un hash hex de veinte bytes que me gustaría almacenar en un modelo Django. Si utilizo un campo de texto, se interpreta como unicode y vuelve confuso. Actualmente lo estoy codificando y decodificando, lo que realmente desordena el código, porque tengo que poder filtrarlo. def get_changeset(self): return bin(self._changeset) def set_changeset(self, value): self._changeset = hex(value) […]

¿Cómo decodificar y codificar una página web con python?

Utilizo Beautifulsoup y urllib2 para descargar páginas web, pero una página web diferente tiene un método de encoding diferente, como utf-8, gb2312, gbk. Utilizo la página de inicio de urllib2 get sohu, que está codificada con gbk, pero en mi código, también uso esta forma para decodificar su página web: self.html_doc = self.html_doc.decode(‘gb2312′,’ignore’) Pero, ¿cómo […]