Articles of unicode

Coincidir con Unicode en expresiones regulares de la capa

Estoy haciendo coincidir los identificadores, pero ahora tengo un problema: mis identificadores pueden contener caracteres Unicode. Por eso la vieja manera de hacer las cosas no es suficiente: t_IDENTIFIER = r”[A-Za-z](\\.|[A-Za-z_0-9])*” En mi analizador de lenguaje de marcas, coincido con los caracteres Unicode permitiendo todos los caracteres excepto los que uso explícitamente, porque mi lenguaje […]

Limpieza de cadenas de Python + Manipulación (caracteres acentuados)

Tengo una base de datos llena de nombres como: John Smith Scott J. Holmes Dr. Kaplan Ray’s Dog Levi’s Adrian O’Brien Perry Sean Smyre Carie Burchfield-Thompson Björn Árnason Hay algunos nombres extranjeros con acentos en ellos que deben convertirse en cadenas con caracteres no acentuados. Me gustaría convertir los nombres completos (después de eliminar caracteres […]

Cómo decodificar una cadena ASCII con códigos de barra invertida x \ x

Estoy tratando de decodificar de un texto en portugués de Brasil: ‘Demais Subfun \ xc3 \ xa7 \ xc3 \ xb5es 12’ Debería ser ‘Demais Subfunções 12’ >> a.decode(‘unicode_escape’) >> a.encode(‘unicode_escape’) >> a.decode(‘ascii’) >> a.encode(‘ascii’) todos dan: UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xc3 in position 13: ordinal not in range(128) Por otro lado esto […]

Python Convierte cadenas Unicode-Hex utf-8 a cadenas Unicode

Tiene s = u’Gaga\xe2\x80\x99s’ pero necesita convertir a t = u’Gaga\u2019s’ ¿Cómo se puede lograr esto mejor?

¿Cómo le digo a dict () en Python 2 que use unicode en lugar de una cadena de bytes?

Aquí hay un ejemplo: d = dict(a = 2) print d {‘a’: 2} ¿Cómo puedo decirle al constructor dict() que use Unicode en lugar de escribir la explícita literal de cadena como u’a’ ? Estoy cargando un diccionario de un módulo json que utiliza de forma predeterminada unicode. Quiero hacer uso de Unicode de ahora […]

¿Por qué SQLAlchemy create_engine with charset = utf8 devuelve python de tipo y no escribe ?

Usando Python 2.7 y SQLAlchemy 0.7, me estoy conectando a una base de datos MySQL con el comando: engine = create_engine(‘mysql://username:password@host/dbname?charset=utf8’,echo=False) De acuerdo con los documentos de SQLAlchemy, la configuración de charset = utf8 implica automáticamente use_unicode = 1, de modo que todas las cadenas vuelvan como unicode. http://docs.sqlalchemy.org/en/rel_0_7/dialects/mysql.html específicamente da el ejemplo #set la […]

Scrapy spider: trata sobre páginas que tienen una encoding de caracteres definida incorrectamente

Actualización: este error se puede reproducir simplemente ejecutando esto desde la línea de comandos: scrapy shell http://www.indiegogo.com/Straight-Talk-About-Your-Future Estoy usando Scrapy para rastrear un sitio web. Cada página que rasco dice ser codificada en UTF-8: Pero ocasionalmente, las páginas contienen bytes que están fuera de UTF-8, y recibo errores de Scrapy como: exceptions.UnicodeDecodeError: ‘utf8’ codec can’t […]

¿Cómo ingreso texto árabe en mi código de python?

mi proyecto es identificar un sentimiento ya sea positivo o negativo (análisis de sentimiento) en idioma árabe, para hacer esta tarea utilicé NLTK y python, cuando ingreso tweets en árabe ocurre un error >>> pos_tweets = [(‘ أساند كل عون أمن شريف’, ‘positive’), (‘ما أحلى الثورة التونسية’, ‘positive’), (‘أجمل طفل في العالم’, ‘positive’), (‘الشعب يحرس’, […]

Python + PostgreSQL + extraño ascii = error de encoding UTF8

Tengo cadenas ASCII que contienen el carácter “\x80” para representar el símbolo del euro: >>> print “\x80” € Al insertar datos de cadena que contienen este carácter en mi base de datos, obtengo: psycopg2.DataError: invalid byte sequence for encoding “UTF8”: 0x80 HINT: This error can also happen if the byte sequence does not match the […]

Si un progtwig de línea de comandos no está seguro de la encoding de stdout, ¿qué encoding debería generar?

Tengo un progtwig de línea de comandos escrito en Python, y cuando lo sys.stdout.encoding través de otro progtwig en la línea de comandos, sys.stdout.encoding es None . Supongo que esto tiene sentido, la salida podría ser otro progtwig, o un archivo al que se está redirigiendo, o lo que sea, y no sabe qué encoding […]