Articles of python unicode

UnicodeDecodeError: (códec ‘utf-8’) al leer un archivo csv

lo que estoy intentando es leer un csv para hacer un dataframe — hacer cambios en una columna — nuevamente actualizar / reflejar el valor cambiado en el mismo csv (to_csv) – nuevamente tratar de leer ese csv para hacer otro dataframe … allí estoy recibiendo un error UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xe7 […]

Codificaciones de cadena implícitas / predeterminadas de Python

¿Cuándo, dónde y cómo aplica Python implícitamente las codificaciones a las cadenas o hace transcodificaciones (conversiones) implícitas? ¿Y cuáles son esas codificaciones “predeterminadas” (es decir, implícitas)? Por ejemplo, ¿cuáles son las codificaciones: de cadenas literales? s = “Byte string with national characters” us = u”Unicode string with national characters” de las cadenas de bytes cuando […]

Método sys.getsizeof de python que devuelve diferentes tamaños en diferentes versiones de python

sys.getsizeof está devolviendo un tamaño diferente para una cadena Unicode en diferentes versiones de Python. sys.getsizeof(u’Hello World’) devuelve 96 en Python 2.7.3 y devuelve 72 en Python 2.7.11

UnicodeEncodeError: el codec ‘ascii’ no puede codificar el carácter u ‘\ xe9’ en la posición 7: ordinal no está dentro del rango (128)

Tengo este codigo printinfo = title + “\t” + old_vendor_id + “\t” + apple_id + ‘\n’ # Write file f.write (printinfo + ‘\n’) Pero me sale este error al ejecutarlo: f.write(printinfo + ‘\n’) UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\xe9′ in position 7: ordinal not in range(128) Es tener problemas para escribir esto: Identité secrète […]

Cadena de Python a Unicode

Posible duplicado: ¿Cómo trato una cadena ASCII como unicode y extraigo los caracteres escapados en python? ¿Cómo convertir secuencias de escape Unicode en caracteres Unicode en una cadena de python? Tengo una cadena que contiene caracteres Unicode, por ejemplo, \u2026 etc. De alguna manera, no se me recibe como unicode , pero se recibe como […]

Python, convierte el carácter de 4 bytes para evitar el error de MySQL “Valor de cadena incorrecto:”

Necesito convertir (en Python) un char de 4 bytes en algún otro carácter. Esto es para insertarlo en mi base de datos utf-8 mysql sin obtener un error como: “Valor de cadena incorrecto: ‘\ xF0 \ x9F \ x94 \ x8E’ para columna ‘línea’ en la fila 1” La advertencia generada al insertar unicode de […]

¿Cómo tratar con ® en url para urllib2.urlopen?

Recibí una url: https://www.packtpub.com/virtualization-and-cloud/citrix-xenapp®-75-desktop-virtualization-solutions ; Es de BeautifulSoup. url=u’https://www.packtpub.com/virtualization-and-cloud/citrix-xenapp\xae-75-desktop-virtualization-solutions’ Quiero alimentar de nuevo en urllib2.urlopen de nuevo. import urllib2 source = urllib2.urlopen(url).read() El error que recibo: UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\xae’ in position 43: illegal multibyte sequence Por lo tanto, he intentado: source = urllib2.urlopen(url.encode(“utf-8”)).read() Obtuvo la fuente de la página, sin embargo, […]

Python devuelve una longitud de 2 para una sola cadena de caracteres Unicode

En Python 2.7: In [2]: utf8_str = ‘\xf0\x9f\x91\x8d’ In [3]: print(utf8_str) 👍 In [4]: unicode_str = utf8_str.decode(‘utf-8′) In [5]: print(unicode_str) 👍 In [6]: unicode_str Out[6]: u’\U0001f44d’ In [7]: len(unicode_str) Out[7]: 2 Dado que unicode_str solo contiene un único punto de código de Unicode (0x0001f44d), ¿por qué len(unicode_str) devuelve 2 en lugar de 1?

UnicodeEncodeError: el códec ‘cp949’ no puede codificar el carácter ‘\ u20a9’ en la posición 90: secuencia multibyte ilegal

Soy un principiante de python. Estoy intentando rastrear google play store y exportar a un archivo csv. Pero tengo un mensaje de error. UnicodeEncodeError: ‘cp949’ codec can’t encode character ‘\u20a9’ in position 90: illegal multibyte sequence Aquí está mi código fuente. Cuando ordeno imprimir, funciona. Pero muestra un mensaje de error al exportar a un […]

¿Cómo escribir caracteres rusos en el archivo?

En la consola cuando estoy tratando de salida de caracteres rusos me da ??????????????? ¿Quién sabe por qué? Intenté escribir en archivo – en este caso la misma situación. por ejemplo f=open(‘tets.txt’,’w’) f.write(‘some russian text’) f.close el archivo interno es – ????????????????????????/ o p=”some russian text” print p ????????????? En el Bloc de notas adicional […]