Articles of no ascii

Impresión de caracteres no-ascii en python / jinja

El siguiente código funciona correctamente: from jinja2 import Template mylist = [‘some text \xc3’] template = Template(‘{{ list }}’) print template.render(list=mylist) Cuando lo ejecuto, sale: [‘some text \xc3’] Sin embargo, cuando bash imprimir el elemento de lista real, falla: template = Template(‘{{ list[0] }}’) print template.render(list=mylist) El error es: UnicodeDecodeError: ‘ascii’ codec can’t decode byte […]

¿Cómo explicar los caracteres de acento para expresiones regulares en Python?

Actualmente utilizo re.findall para buscar y aislar palabras después del carácter ‘#’ para tags hash en una cadena: hashtags = re.findall(r’#([A-Za-z0-9_]+)’, str1) Busca en str1 y encuentra todos los hashtags. Esto funciona, sin embargo, no tiene en cuenta los caracteres acentuados como estos, por ejemplo: áéíóúñü¿ . Si una de estas letras está en str1, […]

Eliminar caracteres que no sean ASCII de cualquier tipo de cadena dado en Python

>>> teststring = ‘aõ’ >>> type(teststring) >>> teststring ‘a\xf5′ >>> print teststring aõ >>> teststring.decode(“ascii”, “ignore”) u’a’ >>> teststring.decode(“ascii”, “ignore”).encode(“ascii”) ‘a’ que es lo que realmente quería que almacenara internamente mientras elimino los caracteres que no son ASCII. ¿Por qué la deencoding (“ascii entregó una cadena Unicode? >>> teststringUni = u’aõ’ >>> type(teststringUni) >>> print […]

manejar cadenas de código no ascii en python

Es realmente confuso manejar el código no-ascii en python. ¿Alguien puede explicar? Estoy intentando leer un archivo de texto plano y reemplazar todos los caracteres no alfabéticos con espacios. Tengo una lista de personajes: ignorelist = (‘!’, ‘-‘, ‘_’, ‘(‘, ‘)’, ‘,’, ‘.’, ‘:’, ‘;’, ‘”‘, ‘\”, ‘?’, ‘#’, ‘@’, ‘$’, ‘^’, ‘&’, ‘*’, ‘+’, […]

Problemas de encoding / deencoding de Python

¿Cómo decodificar cadenas como esta “weren \ xe2 \ x80 \ x99t” para volver a la encoding normal? ¿Entonces esta palabra en realidad no era y no era “weren \ xe2 \ x80 \ x99t”? Por ejemplo: print “\xe2\x80\x9cThings” string = “\xe2\x80\x9cThings” print string.decode(‘utf-8’) print string.encode(‘ascii’, ‘ignore’) “Things “Things Things Pero en realidad quiero conseguir […]

caracteres Unicode coincidentes en expresiones regulares de Python

He leído a través de las otras preguntas en Stackoverflow, pero todavía no estoy más cerca. Lo siento, si esto ya está respondido, pero no conseguí nada propuesto para trabajar. >>> import re >>> m = re.match(r’^/by_tag/(?P\w+)/(?P(\w|[.,!#%{}()@])+)$’, ‘/by_tag/xmas/xmas1.jpg’) >>> print m.groupdict() {‘tag’: ‘xmas’, ‘filename’: ‘xmas1.jpg’} Todo está bien, luego bash algo con caracteres noruegos (o […]

¿Cómo obtener una url no ascii con Python urlopen?

Necesito obtener datos de una URL con caracteres que no sean ascii, pero urllib2.urlopen se niega a abrir el recurso y genera: UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\u0131′ in position 26: ordinal not in range(128) Sé que la URL no cumple con los estándares, pero no tengo la oportunidad de cambiarla. ¿Cuál es la […]