Articles of utf 8

¿Cómo enviar contenido utf-8 en una solicitud urllib2?

Estoy luchando con la siguiente pregunta durante la última mitad del día y, aunque he encontrado información sobre problemas similares, no hay nada que realmente llame la atención. Estoy intentando enviar una solicitud PUT usando urllib2 con datos que contienen algunos caracteres Unicode: body = u'{ “bbb” : “asdf\xd7\xa9\xd7\x93\xd7\x92”}’ conn = urllib2.Request(request_url, body, headers) conn.get_method […]

Haga una lista de las palabras Unicode que están en un archivo

Mi codigo es f = codecs.open(r’C:\Users\Admin\Desktop\nepali.txt’, ‘r’, ‘UTF-8′) nepali = f.read().split() for i in nepali: print i Mostrar las palabras en el archivo: यो किताब टेबुल मा छ यो एक किताब हो केटा Pero cuando bash crear una lista de las palabras con código: file=codecs.open(r’C:\Users\Admin\Desktop\nepali.txt’, ‘r’, ‘UTF-8’) nepali = list(file.read().split()) print nepali La salida ahora […]

Datos de SQLAlchemy Text Matching dentro del campo JSON con UTF-8

Tengo una tabla llamada Mensaje que tiene contenido de columna de tipo JSON La definición de mi modelo según lo solicitado es la siguiente class Message(db.Model): … content = db.Column(JSON) … Ahora realizo la coincidencia de texto para una búsqueda simple con la siguiente consulta Message.query.filter(Message.content[‘summary’].cast(Unicode).match(term)) funciona bien, hasta que el término tenga un carácter […]

Especificando la encoding usando NumPy loadtxt / savetxt

El uso de las loadtxt NumPy loadtxt y savetxt falla cuando se trata de caracteres que no son ASCII. Estas funciones son principalmente para datos numéricos, pero también se admiten encabezados / pies de página alfanuméricos. Tanto loadtxt como savetxt parecen estar aplicando la encoding latin-1, que me parece muy ortogonal al rest de Python […]

Python os.walk Make It Support Unicode / UTF-8?

He investigado sobre este problema, parece que el uso predeterminado de Python 2.7 es ASCII, no puedo cambiar a python 3 (Unicode predeterminado) debido a las bibliotecas # -*- coding: utf-8 -*- print u’порядке’ parece imprimir bien será ?????? sin u pero: print list(os.walk(ur’c:\somefoler’)) devuelve \u0438\u0442… ¿por qué no legible como primera impresión? También uso […]

Convierta cada valor de diccionario a utf-8 (¿comprensión de diccionario?)

Tengo un diccionario y quiero convertir todos los valores a utf-8. Esto funciona, pero ¿hay una forma “más pythonica”? for key in row.keys(): row[key] = unicode(row[key]).encode(“utf-8”) Para una lista que podría hacer [unicode(s).encode(“utf-8”) for s in row] pero no estoy seguro de cómo hacer lo equivalente para los diccionarios. Esto es diferente de Python Dictionary […]

Trabajando con UTF-8 en Python

Como es verano ahora, decidí aprender un nuevo idioma y Python fue mi elección. Realmente, lo que me gustaría aprender es cómo manipular el texto en árabe usando Python. Ahora, he encontrado muchos recursos sobre el uso de Python, que son realmente geniales. Sin embargo, cuando aplico lo que aprendí en cuerdas árabes, obtengo números […]

Impresión de letras árabes / persas en python 2.7

Python no parece estar trabajando con letras árabes aquí en el código a continuación. ¿Algunas ideas? #!/usr/bin/python # -*- coding: utf-8 -*- import nltk sentence = “ورود ممنوع” tokens = nltk.word_tokenize(sentence) print tokens el resultado es: >>> [‘\xd9\x88\xd8\xb1\xd9\x88\xd8\xaf’, ‘\xd9\x85\xd9\x85\xd9\x86\xd9\x88\xd8\xb9’] >>> También intenté agregar una u antes de la cadena, pero no ayudó: >>> u”ورود ممنوع”>>> […]

¿Cómo obtengo una expresión regular para reconocer caracteres no ASCII como letras?

Estoy extrayendo información de una página web en sueco. Esta página está usando caracteres como: öäå. Mi problema es que cuando imprimo la información, los öäå se han ido. Estoy extrayendo la información usando Beautiful Soup. Creo que el problema es que hago un montón de expresiones regulares en las cadenas que location = re.sub(r'([^\w])+’, […]

Python Convierte cadenas Unicode-Hex utf-8 a cadenas Unicode

Tiene s = u’Gaga\xe2\x80\x99s’ pero necesita convertir a t = u’Gaga\u2019s’ ¿Cómo se puede lograr esto mejor?