Articles of encoding

Python urllib2 utf-8 encoding

bueno, tengo: # -*- coding: utf-8 -*- en mi archivo python. el fragmento opener = urllib2.build_opener() opener.addheaders = [(‘User-agent’, ‘Mozilla/5.0’)] opener.addheaders = [(‘Accept-Charset’, ‘utf-8’)] f =opener.open(url) doc = f.read().decode(‘utf-8’) La respuesta del servidor es: (a través de f.info ()) Content-Type: text/html; charset=UTF-8 pero me sale el error: UnicodeDecodeError: ‘utf8’ codec can’t decode byte[…]: invalid continuation […]

UnicodeDecodeError: el codec ‘utf-8’ no puede decodificar un error de byte

Estoy intentando obtener una respuesta de urllib y decodificarla en un formato legible. El texto está en hebreo y también contiene caracteres como { y / La encoding de la página superior es: # -*- coding: utf-8 -*- cadena cruda es: b’\xff\xfe{\x00 \x00\r\x00\n\x00″\x00i\x00d\x00″\x00 \x00:\x00 \x00″\x001\x004\x000\x004\x008\x003\x000\x000\x006\x004\x006\x009\x006\x00″\x00,\x00\r\x00\n\x00″\x00t\x00i\x00t\x00l\x00e\x00″\x00 \x00:\x00 \x00″\x00\xe4\x05\xd9\x05\xe7\x05\xd5\x05\xd3\x05 \x00\xd4\x05\xe2\x05\xd5\x05\xe8\x05\xe3\x05 \x00\xd4\x05\xea\x05\xe8\x05\xe2\x05\xd4\x05 \x00\xd1\x05\xde\x05\xe8\x05\xd7\x05\xd1\x05 \x00″\x00,\x00\r\x00\n\x00″\x00d\x00a\x00t\x00a\x00″\x00 \x00:\x00 \x00[\x00]\x00\r\x00\n\x00}\x00\r\x00\n\x00\r\x00\n\x00′ Ahora estoy […]

Python: UnicodeDecodeError: el codec ‘utf8’ no puede decodificar el byte

Estoy leyendo un montón de archivos RTF en cadenas de python. En algunos textos, me sale este error: Traceback (most recent call last): File “11.08.py”, line 47, in X = vectorizer.fit_transform(texts) File “C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py”, line 716, in fit_transform X = super(TfidfVectorizer, self).fit_transform(raw_documents) File “C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py”, line 398, in fit_transform term_count_current = Counter(analyze(doc)) File “C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py”, line 313, in […]

Json.dump que falla con ‘debe ser unicode, no str’ TypeError

Tengo un archivo json que tiene una multitud de caracteres chinos y japoneses (y otros idiomas). Lo estoy cargando en mi script de Python 2.7 usando io.open siguiente manera: with io.open(‘multiIdName.json’, encoding=”utf-8″) as json_data: cards = json.load(json_data) Añado una nueva propiedad al json, todo bien. Luego bash escribirlo de nuevo en otro archivo: with io.open(“testJson.json”,’w’,encoding=”utf-8″) […]

El resultado de SQLAlchemy para la columna UTF-8 es de tipo ‘str’, ¿por qué?

Tengo una consulta SQL que ejecuto así con un motor SQLAlchemy: result = engine.execute(‘SELECT utf_8_field FROM table’) La base de datos es MySQL y el tipo de columna es TEXTO con encoding UTF-8. El tipo de utf_8_field devuelto es “str”, incluso si configuro la opción convert_unicode = True al crear el motor. Lo que sucede […]

Python UTF-8 letra minúscula turca específica

con el uso de python 2.7: >myCity = ‘Isparta’ >myCity.lower() >’isparta’ #-should be- >’ısparta’ probé un poco de deencoding, (como, myCity.decode (“utf-8”). lower ()) pero no encontré cómo hacerlo. ¿Cómo se puede bajar este tipo de letras? (‘I’> ‘ı’, ‘İ’> ‘i’ etc) EDITAR: En turco, la minúscula de ‘I’ es ‘ı’. La mayúscula de ‘i’ […]

¿Cómo imprimir utf-8 para la consola con Python 3.4 (Windows 8)?

Nunca he envuelto completamente mi cabeza alrededor de la encoding y deencoding de Unicode en otros formatos (utf-8, utf-16, ascii, etc.) pero he llegado a una pared que es confusa y frustrante. Lo que estoy tratando de hacer es imprimir los símbolos de la tarjeta utf-8 (♠, ♥, ♦, ♣) desde un módulo de python […]

json.dump – UnicodeDecodeError: el códec ‘utf8’ no puede decodificar el byte 0xbf en la posición 0: el byte de inicio no es válido

Tengo un diccionario de data donde he almacenado: key – ID de un evento value : el nombre de este evento, donde el value es una cadena UTF-8 Ahora, quiero escribir este mapa en un archivo json. Intenté con esto: with open(‘events_map.json’, ‘w’) as out_file: json.dump(data, out_file, indent = 4) pero esto me da el […]

La mejor forma de descodificar la encoding Unicoding desconocida en Python 2.5

¿Lo tengo todo bien? De todos modos, estoy analizando un montón de html, pero no siempre sé qué encoding tiene que ser (un sorprendente número de mentira). El siguiente código muestra fácilmente lo que he estado haciendo hasta ahora, pero estoy seguro de que hay una mejor manera. Tus sugerencias serían muy apreciadas. import logging […]

¿Cuál es la diferencia entre ‘coding = utf8’ y ‘- * – coding: utf-8 – * -‘?

¿Hay alguna diferencia entre usar #coding=utf8 y # -*- coding: utf-8 -*- Qué pasa # encoding: utf-8