Articles of unicode

Extrae archivos con caracteres no válidos en el nombre de archivo con Python

Utilizo el módulo zipfile de python para extraer un archivo .zip (Tomemos este archivo en http://img.dafont.com/dl/?f=akvaleir por ejemplo) f = zipfile.ZipFile(‘akvaleir.zip’, ‘r’) for fileinfo in f.infolist(): print fileinfo.filename f.extract(fileinfo, ‘.’) Su salida: Akval ir_Normal_v2007.ttf Akval ir, La police – The Font – Fr – En.pdf Ambos archivos son inaccesibles después de la extracción porque hay […]

Django + sqlite + Unicode

Me enfrenté a un problema con las cadenas Unicode al agregar nuevos registros a una base de datos sqlite a través del sitio de administración. class Translation(BaseModel): ….. translation = models.CharField(max_length=100) Cuando bash insertar una palabra como ‘été’ se produce un error: **UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\xe9′ in position 0: ordinal not in […]

¿Cómo exportar DataFrame a HTML con encoding utf-8?

Sigo recibiendo: UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 265-266: ordinal not in range(128) cuando bash df.to_html(“mypage.html”) Aquí hay una muestra de cómo reproducir el problema: df = pd.DataFrame({“a”: [u’Rue du Gu\xc3\xa9, 78120 Sonchamp’], “b”: [u”some other thing”]}) df.to_html(“mypage.html”) La lista de elementos en “a” son de tipo “unicode” . cuando quiero exportarlo a […]

Convertir nombres de dominio a idn en python

Tengo una larga lista de nombres de dominio que necesito para generar algunos informes. La lista contiene algunos dominios IDN, y aunque sé cómo convertirlos en python en la línea de comandos: >>> domain = u”pfarmerü.com” >>> domain u’pfarmer\xfc.com’ >>> domain.encode(“idna”) ‘xn--pfarmer-t2a.com’ >>> Estoy luchando para que funcione con un pequeño script que lee datos […]

Convertir objetos Unicode con símbolos que no son ASCII en objetos de cadenas (en Python)

Quiero enviar caracteres chinos para que los traduzca un servicio en línea, y me devuelvan la cadena en inglés resultante. Estoy usando JSON simple y urllib para esto. Y sí, estoy declarando. # -*- coding: utf-8 -*- en la parte superior de mi código. Ahora todo funciona bien si alimento a urllib con un objeto […]

Mostrar caracteres no ascii (japoneses) en la leyenda de la ttwig pandas

Si hago esto: import pandas as pd pd.DataFrame( data=nr.random( (2,2) ), columns=[u’é’,u’日本’] ).plot() Resultado: Así que é aparece, pero no 日本 . Después de googlear un poco, encontré esta página que parece proporcionar una solución para matplotlib . Descargué el archivo de fonts aquí y lo matplotlib funcionar con matplotlib : import matplotlib.font_manager as fm […]

cx_Oracle ‘ORA-01843: no es un mes válido’ con parámetro Unicode

Tengo lo siguiente: (usando ipython) In [30]: con = cx_Oracle.connect(‘refill_test02/******@MYDB’) In [31]: cur = con.cursor() In [32]: cur.execute(“ALTER SESSION SET NLS_DATE_FORMAT = ‘YYYY-MM-DD HH24:MI:SS’ NLS_TIMESTAMP_FORMAT = ‘YYYY-MM-DD HH24:MI:SS.FF'”) In [33]: cur.execute(“select to_date(:0), to_timestamp(:1) from dual”, [‘2013-03-12’, ‘2013-03-12 08:22:31.332144’]) Out[33]: <__builtin__.OracleCursor on > In [34]: cur.fetchall() Out[34]: [(datetime.datetime(2013, 3, 12, 0, 0), datetime.datetime(2013, 3, 12, 8, […]

Convertir Unicode a UTF-8 Python

Estoy trabajando con una base de datos que tiene caracteres dispersos como este: “. Necesito tomar esto de la base de datos, convertirlo a UTF-8 y luego importarlo a una base de datos diferente, usando Python. Cuando se imprimen en el Símbolo del sistema de Windows, estos caracteres se ven así: \ xe2 \ u20ac […]

Python: Convierte Unicode-Hex-String a Unicode

Tengo una cadena hexadecimal hecha de una cadena Unicode con esa función: def toHex(s): res = “” for c in s: res += “%02X” % ord(c) #at least 2 hex digits, can be more return res hex_str = toHex(u”…”) Esto devuelve una cadena como esta: “80547CFB4EBA5DF15B585728” Esa es una secuencia de 6 símbolos chinos. Pero […]

Python utf-8, cómo alinear la impresión

Tengo una matriz que contiene caracteres japoneses, así como “normal”. ¿Cómo puedo alinear la impresión de estos? #!/usr/bin/python # coding=utf-8 a1=[‘する’, ‘します’, ‘trazan’, ‘した’, ‘しました’] a2=[‘dipsy’, ‘laa-laa’, ‘banarne’, ‘po’, ‘tinky winky’] for i,j in zip(a1,a2): print i.ljust(12),’:’,j print ‘-‘*8 for i,j in zip(a1,a2): print i,len(i) print j,len(j) Salida: する : dipsyします : laa-laa trazan : […]