Articles of codificación

problema de encoding en Python cuando urlopen () una página gbk

Mi código aquí: # coding:utf-8 if __name__ == ‘__main__’: from urllib2 import urlopen url = ‘http://iccna.blog.sohu.com/164572951.html’ data = urlopen(url).read() soup = BeautifulSoup(data,fromEncoding=’gb18030′) print WebExtractor(soup) pero al depurar, los datos como este: 5h , 4 H 5 VM \ ¿Qué debo hacer para obtener los datos correctos para BeautifulSoup? ¡Gracias!

Python: sugerencias para mejorar un código trozo a trozo para leer varios millones de puntos

Escribí un código para leer el archivo *.las en Python. *las archivo es un archivo especial ascii donde cada línea es x,y,z valor de puntos. Mi función lee N número de puntos y compruebe si están dentro de un polígono con points_inside_poly . Tengo las siguientes preguntas: Cuando llego al final del archivo, LASException: LASError […]

¿Por qué recibo un error de encoding ASCII con datos Unicode en Python 2.4 pero no en 2.7?

Tengo un progtwig que, cuando se ejecuta en Python 2.7, produce una salida Unicode adecuada a la salida estándar. Cuando se ejecuta en Python 2.4, obtengo UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 1-4: ordinal not in range(128) . ¿Qué cambió entre la versión 2.4 y 2.7 que esto funciona ahora?

¿Errores en mi código para detectar la encoding de archivos de texto con Python?

Sé más acerca de la reparación de bicicletas, el uso de motosierras y la seguridad de las zanjas que de Python o encoding de texto; Con eso en mente… La encoding de texto en Python parece ser un problema perenne (mi propia pregunta: ¿ buscando contenidos de archivos de texto con varias codificaciones con Python? […]

Python y el tema de la encoding scrapy

Simplemente no puedo entender! 🙁 Estoy desechando datos de un sitio codificado en utf-8, bueno, eso es al menos lo que dice: Content-Type: text/html;charset=utf-8 Estoy obteniendo una lista de cadenas regulares de Unicode con XPath selector extract () call: item[‘city’]= element.select(‘//div[@id=”bubble_2″]/div/text()’).extract() Esta es la lista: [u’Westbahnhofstr.\xa010′, u’72070\xa0T\xfcbingen’] Ahora me uno a la lista en una […]

Codificación de la ruta de la carpeta IMAP (IMAP UTF-7) para Python

Me gustaría saber si existe alguna función / biblioteca “oficial” en Python para la encoding de la ruta de la carpeta UTF-7 de IMAP4. En imapInstance.list() obtengo la siguiente ruta IMAP codificada en UTF-7: ‘(\\HasNoChildren) “.” “[Mails].Test&AOk-“‘, Si hago la siguiente encoding: (u”[Mails].Testé”).encode(‘utf-7’) Yo obtengo : ‘[Mails].Test+AOk-‘ Que es UTF-7 pero no IMAP UTF-7 codificado. […]

Cómo cambiar la encoding estándar en Python

Estoy usando Windows y Linux para el mismo proyecto. La encoding predeterminada para stdin en windows es cp1252 y en linux es utf-8. Me gustaría cambiar todo a uft-8. ¿Es posible? ¿Cómo puedo hacerlo?

Punto de código de Python Unicode a carácter Unicode

Estoy tratando de escribir en un archivo plano algunos caracteres chinos, rusos o varios que no están en inglés para propósitos de prueba. Me estoy atascando en cómo generar un valor decimal-decimal o decimal de Unicode a su carácter correspondiente. Por ejemplo, en Python, si tuviera un conjunto codificado de caracteres como абвгдежзийкл , asignaría […]

La forma correcta de imprimir caracteres Unicode en la consola en Python cuando se utilizan scripts en línea

Estoy buscando una forma de imprimir caracteres Unicode en una consola Linux compatible con UTF-8, utilizando el método de print Python 2.x. Lo que obtengo es: $ python2.7 -c “print u’é'” é Lo que quiero: $ python2.7 -c “print u’é'” é Python detecta correctamente que la consola está configurada para UTF-8. $ python2.7 -c “import […]

Problemas de conversión de UTF-8 latin-1, Python Django

ok, mi problema es que tengo la cadena ‘\ 222 \ 222 \ 223 \ 225’ que se almacena como latin-1 en la base de datos. Lo que obtengo de django (imprimiéndolo) es la siguiente cadena, ‘ââââ ¢’, que supongo que es la conversión de UTF. Ahora necesito pasar la cadena a una función que […]