Articles of utf 8

Convertir Unicode a UTF-8 Python

Estoy trabajando con una base de datos que tiene caracteres dispersos como este: “. Necesito tomar esto de la base de datos, convertirlo a UTF-8 y luego importarlo a una base de datos diferente, usando Python. Cuando se imprimen en el Símbolo del sistema de Windows, estos caracteres se ven así: \ xe2 \ u20ac […]

Python utf-8, cómo alinear la impresión

Tengo una matriz que contiene caracteres japoneses, así como “normal”. ¿Cómo puedo alinear la impresión de estos? #!/usr/bin/python # coding=utf-8 a1=[‘する’, ‘します’, ‘trazan’, ‘した’, ‘しました’] a2=[‘dipsy’, ‘laa-laa’, ‘banarne’, ‘po’, ‘tinky winky’] for i,j in zip(a1,a2): print i.ljust(12),’:’,j print ‘-‘*8 for i,j in zip(a1,a2): print i,len(i) print j,len(j) Salida: する : dipsyします : laa-laa trazan : […]

El códec ‘utf-8’ no puede decodificar un byte leyendo un archivo en Python3.4 pero no en Python2.7

Estaba intentando leer un archivo en python2.7, y fue leído perfectamente. El problema que tengo es cuando ejecuto el mismo progtwig en Python3.4 y luego aparece el error: ‘utf-8′ codec can’t decode byte 0xf2 in position 424: invalid continuation byte’ Además, cuando ejecuto el progtwig en Windows (con python3.4), el error no aparece. La primera […]

¿Hay una manera fácil de hacer que Unicode funcione en Python?

Estoy tratando de lidiar con Unicode en Python 2.7.2. Sé que existe la .encode(‘utf-8’) pero la mitad del tiempo cuando la agrego, recibo errores y la mitad de la vez que no la agrego, recibo errores. ¿Hay alguna forma de decirle a python: lo que pensé que era un lenguaje moderno y actualizado para usar […]

Python y el tema de la encoding scrapy

Simplemente no puedo entender! 🙁 Estoy desechando datos de un sitio codificado en utf-8, bueno, eso es al menos lo que dice: Content-Type: text/html;charset=utf-8 Estoy obteniendo una lista de cadenas regulares de Unicode con XPath selector extract () call: item[‘city’]= element.select(‘//div[@id=”bubble_2″]/div/text()’).extract() Esta es la lista: [u’Westbahnhofstr.\xa010′, u’72070\xa0T\xfcbingen’] Ahora me uno a la lista en una […]

Codificación de porcentaje UTF-8 y python

Estoy tratando de que Python me dé un porcentaje de cadenas codificadas. La API con la que estoy interactuando (que creo que está usando el porcentaje codificado en UTF-8), da% c3% ae para î. Sin embargo, urllib.quote de python da% 3F. import urllib mystring = “î” print urllib.quote(mystring) print urllib.quote_plus(mystring) print urllib.quote(mystring.encode(‘utf-8’)) Cualquier ayuda apreciada.

¿Cuál es la manera infalible de convertir una cadena (utf-8 o else) a una cadena ASCII simple en python?

Dentro de mi script de Python, obtengo algunas cadenas de una función que no escribí. La encoding de la misma varía. Necesito convertirlo a formato ascii. ¿Hay alguna manera infalible de hacer esto? No me importa reemplazar los caracteres que no son ascii con espacios en blanco o algo más …

Obtención de python para imprimir en UTF8 en Windows XP con la consola

Me gustaría configurar mi consola en Windows XP para que sea compatible con UTF8 y que Python lo detecte y trabaje con él. Hasta ahora, mis bashs: C:\Documents and Settings\Philippe>C:\Python25\python.exe Python 2.5.2 (r252:60911, Feb 21 2008, 13:11:45) [MSC v.1310 32 bit (Intel)] on win32 Type “help”, “copyright”, “credits” or “license” for more information. >>> print […]

El codec ‘utf-8’ no puede decodificar el byte 0x80

Estoy tratando de descargar el modelo entrenado por BVLC y estoy atascado con este error UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x80 in position 110: invalid start byte Creo que es por la siguiente función ( código completo ) # Closure-d function for checking SHA1. def model_checks_out(filename=model_filename, sha1=frontmatter[‘sha1’]): with open(filename, ‘r’) as f: return hashlib.sha1(f.read()).hexdigest() […]

imprimir caracteres UTF-8 en Python 2.7

Así es como abro, leo y hago salida. El archivo es un archivo codificado en UTF-8 para caracteres Unicode. Quiero imprimir los primeros 10 caracteres UTF-8, pero la salida del fragmento de código a continuación imprime 10 caracteres extraños no reconocidos. ¿Se pregunta si alguien tiene alguna idea de cómo imprimir correctamente? Gracias. with open(name, […]