Articles of python unicode

Python 2.7 en minúsculas

Cuando uso .lower() en Python 2.7, la cadena no se convierte a minúsculas para las letras ŠČŽ . Leo los datos del diccionario. Intenté usar str(tt[“code”]).lower() , tt[“code”].lower() . Alguna sugerencia ?

Python: Traceback codecs.charmap_decode (input, self.errors, decoding_table)

A continuación se muestra un código de muestra, el objective es simplemente fusionar archivos de texto de la carpeta de donaciones y su subcarpeta. Estoy recibiendo Traceback de vez en cuando, así que no estoy seguro de dónde buscar. También necesita ayuda para mejorar el código para evitar que la línea en blanco se combine […]

datos de Unicode de un dataframe a cadenas

Tengo algunos problemas con un dataframe obtenido al leer un archivo xls. Todos los datos en dicho dataframe tienen el tipo ‘Unicode’ y no puedo hacer nada con esto. Quiero cambiarlo a valores de str. Además, si es posible, me gustaría saber la razón de este hecho. Escuché algo sobre ‘datos externos’, y sé que […]

¿Cómo construir un vocabulario regular de emoticons en python?

Tengo una lista de códigos de emoticones dentro de un archivo UTF32.red.codes en texto plano. El contenido plano del archivo es \U0001F600 \U0001F601 \U0001F602 \U0001F603 \U0001F604 \U0001F605 \U0001F606 \U0001F609 \U0001F60A \U0001F60B Basándome en la pregunta , mi idea es crear una expresión regular del contenido del archivo para capturar los emoticones. Este es mi ejemplo […]

Eliminar todos los Emojis del texto

Python ha formulado esta pregunta aquí : Cómo eliminar todos los emojis Sin una solución, tengo un paso hacia la solución. Pero necesito ayuda para terminarlo. Fui y obtuve todos los puntos del código hex de emoji del sitio emoji: https://www.unicode.org/emoji/charts/emoji-ordering.txt Entonces leí en el archivo así: file = open(’emoji-ordering.txt’) temp = file.readline() final_list = […]

deencoding y encoding de cadena hebrea en Python

Estoy tratando de codificar y decodificar la cadena hebrea “שלום”. Sin embargo, después de la encoding, me sale gibberish: >>> word = “שלום” >>> word = word.decode(‘UTF-8′) >>> word u’\u05e9\u05dc\u05d5\u05dd’ >>> print word שלום >>> word = word.encode(‘UTF-8’) >>> word ‘\xd7\xa9\xd7\x9c\xd7\x95\xd7\x9d’ >>> print word ׳©׳׳•׳ ¿Cómo debo hacerlo correctamente? Gracias.

Cómo iterar correctamente sobre caracteres Unicode en Python

Me gustaría iterar sobre una cadena y generar todos los emojis. Estoy intentando iterar sobre los caracteres y compararlos con una lista de emoji . Sin embargo, Python parece dividir los caracteres Unicode en otros más pequeños, rompiendo mi código. Ejemplo: >>> list(u’Test \U0001f60d’) [u’T’, u’e’, u’s’, u’t’, u’ ‘, u’\ud83d’, u’\ude0d’] ¿Alguna idea de […]

UnicodeDecodeError cuando se usa Python 2.x unicodecsv

Estoy intentando escribir un archivo csv con caracteres Unicode, así que estoy usando el paquete unicodecsv. Desafortunadamente, todavía estoy recibiendo UnicodeDecodeErrors: # -*- coding: utf-8 -*- import codecs import unicodecsv raw_contents = ‘He observes an “Oversized Gorilla” near Ashford’ encoded_contents = unicode(raw_contents, errors=’replace’) with codecs.open(‘test.csv’, ‘w’, ‘UTF-8′) as f: w = unicodecsv.writer(f, encoding=’UTF-8’) w.writerow([“1”, encoded_contents]) […]

Tratar con los nombres de usuario de Unicode en Python mkdtemp

Fui mordido por http://bugs.python.org/issue1681974 – citando desde allí: mkdtemp falla en Windows si el nombre de usuario de Windows tiene algún carácter no ASCII, como ä o ö, en él. mkdtemp lanza un error de encoding. Esto parece ser porque el directorio temporal predeterminado en Windows es “c:\documents and settings\\local settings\temp” La solución que utiliza […]

Cómo convertir una cadena que contiene unicode escape \ u #### en una cadena utf-8

Estoy intentando esto desde la mañana. Mi sample.txt choice = \u9078\u629e Código: with open(‘sample.txt’, encoding=’utf-8′) as f: for line in f: print(line) print(“選択” in line) print(line.encode(‘utf-8’).decode(‘utf-8’)) print(line.encode().decode(‘utf-8’)) print(line.encode(‘utf-8’).decode()) print(line.encode().decode(‘unicode-escape’).encode(“latin-1”).decode(‘utf-8’)) # as suggested. out: choice = \u9078\u629e False choice = \u9078\u629e choice = \u9078\u629e choice = \u9078\u629e UnicodeEncodeError: ‘latin-1’ codec can’t encode characters in position 9-10: […]