Articles of utf 8

¿Cuál es la diferencia entre el prefijo u ” y unicode () en python?

¿Cuál es la diferencia entre u” prefijo u” y unicode() ? # -*- coding: utf-8 -*- print u’上午’ # this works print unicode(‘上午’, errors=’ignore’) # this works but print out nothing print unicode(‘上午’) # error Para la tercera print , el error muestra: UnicodeDecodeError: el códec ‘ascii’ no puede decodificar el byte 0xe4 en la […]

Cambio de la “encoding de configuración regional preferida” en Python 3 en Windows

Estoy usando Python 3 (recientemente cambiado de Python 2). Mi código generalmente se ejecuta en Linux, pero también a veces (no a menudo) en Windows. De acuerdo con la documentación de Python 3 para open() , la encoding predeterminada para un archivo de texto es de locale.getpreferredencoding() si no se proporciona el locale.getpreferredencoding() encoding . […]

Cómo codificar (utf8mb4) en Python

¿Cómo puedo codificar algo en ut8mb4 en Python? Tengo dos conjuntos de datos: los datos que estoy migrando a mi nueva base de datos MySQL desde Parse, y los datos en adelante (que solo se refieren a mi nueva base de datos). Mi base de datos es utf8mb4 para almacenar emoji y letras acentuadas. El […]

Convertir octetos UTF-8 a puntos de código Unicode

Tengo un conjunto de octetos UTF-8 y necesito convertirlos de nuevo a puntos de código Unicode. ¿Cómo puedo hacer esto en python. por ejemplo, el octeto UTF-8 [‘0xc5’, ‘0x81’] debe convertirse en punto de código 0x141.

Leyendo los caracteres utf-8 de un archivo gzip en python

Estoy tratando de leer un archivo comprimido (.gz) en python y estoy teniendo algunos problemas. Usé el módulo gzip para leerlo, pero el archivo está codificado como un archivo de texto utf-8, por lo que eventualmente lee un carácter no válido y se bloquea. ¿Alguien sabe cómo leer archivos gzip codificados como archivos utf-8? Sé […]

Python obtener un tamaño de cadena Unicode

Tengo un archivo binario. Este archivo contiene una cadena UTF-8. Además, se garantiza que esta cadena es solo una palabra. En Python, ¿cómo puedo obtener el número de letras en esta cadena? Digamos, abrí este archivo y leí bytes: bytes = open(“1.dat”, “rb”).read() ¿Qué debo hacer a continuación para averiguar la longitud (en letras, no […]

¿Cómo encontrar caracteres chinos o japoneses en una cadena en Python?

Como: str = ‘sdf344asfasf天地方益3権sdfsdf’ Añadir () a caracteres chinos y japoneses: strAfterConvert = ‘sdfasfasf(天地方益)3(権)sdfsdf’

UnicodeDecodeError: (códec ‘utf-8’) al leer un archivo csv

lo que estoy intentando es leer un csv para hacer un dataframe — hacer cambios en una columna — nuevamente actualizar / reflejar el valor cambiado en el mismo csv (to_csv) – nuevamente tratar de leer ese csv para hacer otro dataframe … allí estoy recibiendo un error UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xe7 […]

¿Para qué se utiliza unicode_literals?

Me sale un problema extraño con __future__.unicode_literals en Python. Sin importar unicode_literals obtengo el resultado correcto: # encoding: utf-8 # from __future__ import unicode_literals name = ‘helló wörld from example’ print name Pero cuando agrego la importación unicode_literals : # encoding: utf-8 from __future__ import unicode_literals name = ‘helló wörld from example’ print name Tengo […]

Python – tratar con archivos de encoding mixta

Tengo un archivo que es en su mayoría UTF-8, pero algunos caracteres de Windows-1252 también se han introducido. Creé una tabla para asignar desde los caracteres de Windows-1252 (cp1252) a sus contrapartes de Unicode, y me gustaría usarla para corregir los caracteres mal codificados, por ejemplo cp1252_to_unicode = { “\x85”: u’\u2026′, # … “\x91”: u’\u2018′, […]