Articles of encoding de

cómo eliminar el código non utf 8 y guardar como un archivo csv python

Tengo algunos datos de revisión de Amazon y he convertido con éxito desde el formato de texto al formato CSV, ahora el problema es que cuando bash leerlo en un dataframe usando pandas, recibí el mensaje de error: UnicodeDecodeError: ‘utf-8’ codec can ‘ t decodifica el byte 0xf8 en la posición 13: byte de inicio […]

¿Codificando una lista de tuplas con python?

Estoy leyendo de un directorio un archivo de texto utf-8, luego inserto el texto leído en una lista y obtengo algunas tuplas como esta: l = [(‘mucho’,’fácil’),…,(‘yo’,’hola’)] Cuando lo imprimo en la consola tengo lo siguiente: print l (‘mucho’,’f\xc3\xa1cil’),…,(‘yo’,’hola’) Así que intenté lo siguiente: fixing_l = [x.encode(‘utf-8’) for x in l] Cuando bash imprimirlo obtengo […]

Caracteres especiales de Python en cuerdas.

Estoy tratando de mostrar el correo electrónico dentro de una página web. El progtwig está escrito en Python. Desafortunadamente, tengo algunos problemas de encoding de caracteres. Tengo citas y comillas dobles en el texto. Correo original: “All is good” ‘it is getting better’ con el conjunto de caracteres ‘windows-1252’ que recibo del ISP: =93All is […]

Python lee del archivo y elimina los caracteres que no son ASCII

Tengo el siguiente progtwig que lee un archivo palabra por palabra y vuelve a escribir la palabra en otro archivo pero sin los caracteres que no son ASCII del primer archivo. import unicodedata import codecs infile = codecs.open(‘d.txt’,’r’,encoding=’utf-8′,errors=’ignore’) outfile = codecs.open(‘d_parsed.txt’,’w’,encoding=’utf-8′,errors=’ignore’) for line in infile.readlines(): for word in line.split(): outfile.write(word+” “) outfile.write(“\n”) infile.close() outfile.close() El […]

Envío de UTF-8 con tomas

Estoy tratando de configurar un pequeño progtwig de chat en python. Todo funcionaba bien hasta que envié una cadena que contenía un carácter no ascii que provocó el locking del progtwig. La cadena se lee desde un wx.TestCtrl ¿Cómo puedo enviar una cadena con encoding UTF-8 a través de sockets? ¿Por qué el progtwig funciona […]

UnicodeEncodeError con BeautifulSoup 3.1.0.1 y Python 2.5.2

Con BeautifulSoup 3.1.0.1 y Python 2.5.2, y tratando de analizar una página web en francés. Sin embargo, tan pronto como llamo a findAll, recibo el siguiente error: UnicodeEncodeError: el codec ‘ascii’ no puede codificar el carácter u ‘\ xe9’ en la posición 1146: ordinal no está dentro del rango (128) A continuación se muestra el […]

¿Cómo arreglar la encoding en Python Mechanize?

Aquí está el código de ejemplo: from mechanize import Browser br = Browser() page = br.open(‘http://hunters.tclans.ru/news.php?readmore=2’) br.form = br.forms().next() print br.form El problema es que el servidor devuelve una encoding incorrecta (windows-cp1251). ¿Cómo puedo configurar manualmente la encoding de la página actual en mecanizar? Error: Traceback (most recent call last): File “/tmp/stackoverflow.py”, line 5, in […]

Prevenir errores de encoding en Python

Tengo scripts que imprimen mensajes por el sistema de registro o, a veces, comandos de impresión. En la consola de Windows recibo mensajes de error como Traceback (most recent call last): File “C:\Python32\lib\logging\__init__.py”, line 939, in emit stream.write(msg) File “C:\Python32\lib\encodings\cp850.py”, line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_map)[0] UnicodeEncodeError: ‘charmap’ codec can’t encode character ‘\u2019’ in position […]

La mejor forma de descodificar la encoding Unicoding desconocida en Python 2.5

¿Lo tengo todo bien? De todos modos, estoy analizando un montón de html, pero no siempre sé qué encoding tiene que ser (un sorprendente número de mentira). El siguiente código muestra fácilmente lo que he estado haciendo hasta ahora, pero estoy seguro de que hay una mejor manera. Tus sugerencias serían muy apreciadas. import logging […]

Sklearn: no se pueden usar datos codificados en un clasificador de bosque aleatorio

Soy nuevo en scikit-learn. Estoy tratando de usar preprocesamiento. OneHotEncoder para codificar mi entrenamiento y datos de prueba. Después de la encoding, intenté entrenar un clasificador de bosque aleatorio utilizando esos datos. Pero me sale el siguiente error al encajar. (Aquí la traza del error) 99 model.fit(X_train, y_train) 100 preds = model.predict_proba(X_cv)[:, 1] 101 C:\Python27\lib\site-packages\sklearn\ensemble\forest.pyc […]