Articles of encoding

¿Cómo obtengo una expresión regular para reconocer caracteres no ASCII como letras?

Estoy extrayendo información de una página web en sueco. Esta página está usando caracteres como: öäå. Mi problema es que cuando imprimo la información, los öäå se han ido. Estoy extrayendo la información usando Beautiful Soup. Creo que el problema es que hago un montón de expresiones regulares en las cadenas que location = re.sub(r'([^\w])+’, […]

¿Cómo ingreso texto árabe en mi código de python?

mi proyecto es identificar un sentimiento ya sea positivo o negativo (análisis de sentimiento) en idioma árabe, para hacer esta tarea utilicé NLTK y python, cuando ingreso tweets en árabe ocurre un error >>> pos_tweets = [(‘ أساند كل عون أمن شريف’, ‘positive’), (‘ما أحلى الثورة التونسية’, ‘positive’), (‘أجمل طفل في العالم’, ‘positive’), (‘الشعب يحرس’, […]

Python + PostgreSQL + extraño ascii = error de encoding UTF8

Tengo cadenas ASCII que contienen el carácter “\x80” para representar el símbolo del euro: >>> print “\x80” € Al insertar datos de cadena que contienen este carácter en mi base de datos, obtengo: psycopg2.DataError: invalid byte sequence for encoding “UTF8”: 0x80 HINT: This error can also happen if the byte sequence does not match the […]

pandas to_sql da error de deencoding de Unicode

Tengo un dataframe de pandas que cargué a través de read_csv que estoy tratando de enviar a una base de datos a través de to_sql cuando bash df.to_sql(“assessmentinfo_pivot”, util.ENGINE) Vuelvo un unicodeDecodeError: UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 83-84: ordinal not in range(128) No hay opción de encoding para que to_sql especifique utf-8 […]

Asyncio decodifica utf-8 con StreamReader

Me estoy acostumbrando a asyncio y me parece que el manejo de la tarea es bastante bueno, pero puede ser difícil mezclar las bibliotecas async con las bibliotecas tradicionales de io. El problema al que me enfrento actualmente es cómo descodificar correctamente un StreamReader asíncrono. La solución más sencilla es read() trozos de cadenas de […]

Python urllib2 utf-8 encoding

bueno, tengo: # -*- coding: utf-8 -*- en mi archivo python. el fragmento opener = urllib2.build_opener() opener.addheaders = [(‘User-agent’, ‘Mozilla/5.0’)] opener.addheaders = [(‘Accept-Charset’, ‘utf-8’)] f =opener.open(url) doc = f.read().decode(‘utf-8’) La respuesta del servidor es: (a través de f.info ()) Content-Type: text/html; charset=UTF-8 pero me sale el error: UnicodeDecodeError: ‘utf8’ codec can’t decode byte[…]: invalid continuation […]

UnicodeDecodeError: el codec ‘utf-8’ no puede decodificar un error de byte

Estoy intentando obtener una respuesta de urllib y decodificarla en un formato legible. El texto está en hebreo y también contiene caracteres como { y / La encoding de la página superior es: # -*- coding: utf-8 -*- cadena cruda es: b’\xff\xfe{\x00 \x00\r\x00\n\x00″\x00i\x00d\x00″\x00 \x00:\x00 \x00″\x001\x004\x000\x004\x008\x003\x000\x000\x006\x004\x006\x009\x006\x00″\x00,\x00\r\x00\n\x00″\x00t\x00i\x00t\x00l\x00e\x00″\x00 \x00:\x00 \x00″\x00\xe4\x05\xd9\x05\xe7\x05\xd5\x05\xd3\x05 \x00\xd4\x05\xe2\x05\xd5\x05\xe8\x05\xe3\x05 \x00\xd4\x05\xea\x05\xe8\x05\xe2\x05\xd4\x05 \x00\xd1\x05\xde\x05\xe8\x05\xd7\x05\xd1\x05 \x00″\x00,\x00\r\x00\n\x00″\x00d\x00a\x00t\x00a\x00″\x00 \x00:\x00 \x00[\x00]\x00\r\x00\n\x00}\x00\r\x00\n\x00\r\x00\n\x00′ Ahora estoy […]

Python: UnicodeDecodeError: el codec ‘utf8’ no puede decodificar el byte

Estoy leyendo un montón de archivos RTF en cadenas de python. En algunos textos, me sale este error: Traceback (most recent call last): File “11.08.py”, line 47, in X = vectorizer.fit_transform(texts) File “C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py”, line 716, in fit_transform X = super(TfidfVectorizer, self).fit_transform(raw_documents) File “C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py”, line 398, in fit_transform term_count_current = Counter(analyze(doc)) File “C:\Python27\lib\site-packages\sklearn\feature_extraction\text.py”, line 313, in […]

Json.dump que falla con ‘debe ser unicode, no str’ TypeError

Tengo un archivo json que tiene una multitud de caracteres chinos y japoneses (y otros idiomas). Lo estoy cargando en mi script de Python 2.7 usando io.open siguiente manera: with io.open(‘multiIdName.json’, encoding=”utf-8″) as json_data: cards = json.load(json_data) Añado una nueva propiedad al json, todo bien. Luego bash escribirlo de nuevo en otro archivo: with io.open(“testJson.json”,’w’,encoding=”utf-8″) […]

El resultado de SQLAlchemy para la columna UTF-8 es de tipo ‘str’, ¿por qué?

Tengo una consulta SQL que ejecuto así con un motor SQLAlchemy: result = engine.execute(‘SELECT utf_8_field FROM table’) La base de datos es MySQL y el tipo de columna es TEXTO con encoding UTF-8. El tipo de utf_8_field devuelto es “str”, incluso si configuro la opción convert_unicode = True al crear el motor. Lo que sucede […]