Articles of python unicode

¿Cómo construir un vocabulario regular de emoticons en python?

Tengo una lista de códigos de emoticones dentro de un archivo UTF32.red.codes en texto plano. El contenido plano del archivo es \U0001F600 \U0001F601 \U0001F602 \U0001F603 \U0001F604 \U0001F605 \U0001F606 \U0001F609 \U0001F60A \U0001F60B Basándome en la pregunta , mi idea es crear una expresión regular del contenido del archivo para capturar los emoticones. Este es mi ejemplo […]

Eliminar todos los Emojis del texto

Python ha formulado esta pregunta aquí : Cómo eliminar todos los emojis Sin una solución, tengo un paso hacia la solución. Pero necesito ayuda para terminarlo. Fui y obtuve todos los puntos del código hex de emoji del sitio emoji: https://www.unicode.org/emoji/charts/emoji-ordering.txt Entonces leí en el archivo así: file = open(’emoji-ordering.txt’) temp = file.readline() final_list = […]

deencoding y encoding de cadena hebrea en Python

Estoy tratando de codificar y decodificar la cadena hebrea “שלום”. Sin embargo, después de la encoding, me sale gibberish: >>> word = “שלום” >>> word = word.decode(‘UTF-8′) >>> word u’\u05e9\u05dc\u05d5\u05dd’ >>> print word שלום >>> word = word.encode(‘UTF-8’) >>> word ‘\xd7\xa9\xd7\x9c\xd7\x95\xd7\x9d’ >>> print word ׳©׳׳•׳ ¿Cómo debo hacerlo correctamente? Gracias.

Cómo iterar correctamente sobre caracteres Unicode en Python

Me gustaría iterar sobre una cadena y generar todos los emojis. Estoy intentando iterar sobre los caracteres y compararlos con una lista de emoji . Sin embargo, Python parece dividir los caracteres Unicode en otros más pequeños, rompiendo mi código. Ejemplo: >>> list(u’Test \U0001f60d’) [u’T’, u’e’, u’s’, u’t’, u’ ‘, u’\ud83d’, u’\ude0d’] ¿Alguna idea de […]

UnicodeDecodeError cuando se usa Python 2.x unicodecsv

Estoy intentando escribir un archivo csv con caracteres Unicode, así que estoy usando el paquete unicodecsv. Desafortunadamente, todavía estoy recibiendo UnicodeDecodeErrors: # -*- coding: utf-8 -*- import codecs import unicodecsv raw_contents = ‘He observes an “Oversized Gorilla” near Ashford’ encoded_contents = unicode(raw_contents, errors=’replace’) with codecs.open(‘test.csv’, ‘w’, ‘UTF-8′) as f: w = unicodecsv.writer(f, encoding=’UTF-8’) w.writerow([“1”, encoded_contents]) […]

Tratar con los nombres de usuario de Unicode en Python mkdtemp

Fui mordido por http://bugs.python.org/issue1681974 – citando desde allí: mkdtemp falla en Windows si el nombre de usuario de Windows tiene algún carácter no ASCII, como ä o ö, en él. mkdtemp lanza un error de encoding. Esto parece ser porque el directorio temporal predeterminado en Windows es “c:\documents and settings\\local settings\temp” La solución que utiliza […]

Cómo convertir una cadena que contiene unicode escape \ u #### en una cadena utf-8

Estoy intentando esto desde la mañana. Mi sample.txt choice = \u9078\u629e Código: with open(‘sample.txt’, encoding=’utf-8′) as f: for line in f: print(line) print(“選択” in line) print(line.encode(‘utf-8’).decode(‘utf-8’)) print(line.encode().decode(‘utf-8’)) print(line.encode(‘utf-8’).decode()) print(line.encode().decode(‘unicode-escape’).encode(“latin-1”).decode(‘utf-8’)) # as suggested. out: choice = \u9078\u629e False choice = \u9078\u629e choice = \u9078\u629e choice = \u9078\u629e UnicodeEncodeError: ‘latin-1’ codec can’t encode characters in position 9-10: […]

Python 3: os.walk () rutas de archivos UnicodeEncodeError: el codec ‘utf-8’ no puede codificar: no se permiten sustitutos

Este código: for root, dirs, files in os.walk(‘.’): print(root) Me da este error: UnicodeEncodeError: ‘utf-8’ codec can’t encode character ‘\udcc3’ in position 27: surrogates not allowed ¿Cómo paso por un árbol de archivos sin obtener cadenas tóxicas como esta?

Google App Engine: UnicodeDecodeError: el códec ‘ascii’ no puede decodificar el byte 0xe2 en la posición 48: ordinal no está dentro del rango (128)

Estoy trabajando en una pequeña aplicación que utiliza el motor de aplicaciones de Google que utiliza el canal RSS de Quora. Existe un formulario y, en función de la entrada introducida por el usuario, generará una lista de enlaces relacionados con la entrada. Ahora, las aplicaciones funcionan bien para las consultas de una letra y […]

Unicode en Python

Ahora uso elixir con mi base de datos mysql y la redispy con redis y selecciono UTF-8 en todo el lugar. Quiero escribir algunos datos en chino como {‘Info’:’8折’,’Name’:’家乐福’} pero lo que obtuve es así: {‘Info’: u’8\u6298′, ‘Name’: u’\u5bb6\u4e50\u798f’} y después de que guarde este dictamen para redisparlo y sacarlo de nuevo, se vuelve: {“Info”: […]