Articles of encoding de

La mejor forma de descodificar la encoding Unicoding desconocida en Python 2.5

¿Lo tengo todo bien? De todos modos, estoy analizando un montón de html, pero no siempre sé qué encoding tiene que ser (un sorprendente número de mentira). El siguiente código muestra fácilmente lo que he estado haciendo hasta ahora, pero estoy seguro de que hay una mejor manera. Tus sugerencias serían muy apreciadas. import logging […]

Sklearn: no se pueden usar datos codificados en un clasificador de bosque aleatorio

Soy nuevo en scikit-learn. Estoy tratando de usar preprocesamiento. OneHotEncoder para codificar mi entrenamiento y datos de prueba. Después de la encoding, intenté entrenar un clasificador de bosque aleatorio utilizando esos datos. Pero me sale el siguiente error al encajar. (Aquí la traza del error) 99 model.fit(X_train, y_train) 100 preds = model.predict_proba(X_cv)[:, 1] 101 C:\Python27\lib\site-packages\sklearn\ensemble\forest.pyc […]

El códec ‘ascii’ no puede decodificar el byte (problema al usar django)

Escribí una clase de análisis HTML simple en Python y parece que funciona bien y luego trato de usarlo con django y me sale este error: ‘ascii’ codec can’t decode byte 0xc2 in position 54465: ordinal not in range(128) lo cual es extraño porque agregué esto: # encoding: utf-8 al tope de mi clase. Realmente […]

UnicodeDecodeError durante el uso de cyryllic

Tengo un módulo que contiene solo (es solo un ejemplo. El problema está en un módulo mucho más grande): # -*- coding: utf-8 -*- “януари” Mientras la ejecución me sale: File “C:\Program Files\JetBrains\PyCharm 107.130\helpers\pydev\pydevd.py”, line 1184, in debugger.run(setup[‘file’], None, None) File “C:\Program Files\JetBrains\PyCharm 107.130\helpers\pydev\pydevd.py”, line 947, in run line = stream.readline() #Should not raise an […]

Mejor manera en Python para contar la cadena en otra cadena.

Este código funciona, pero al leer las publicaciones aquí, tengo la impresión de que probablemente no sea una solución muy “Pythonic”. ¿Hay una manera mejor y más eficiente de resolver este problema específico: Lo que hace este código: cuenta las instancias de una cadena encontrada en otra y devuelve el conteo. Provoca un error en […]

Extrae archivos con caracteres no válidos en el nombre de archivo con Python

Utilizo el módulo zipfile de python para extraer un archivo .zip (Tomemos este archivo en http://img.dafont.com/dl/?f=akvaleir por ejemplo) f = zipfile.ZipFile(‘akvaleir.zip’, ‘r’) for fileinfo in f.infolist(): print fileinfo.filename f.extract(fileinfo, ‘.’) Su salida: Akval ir_Normal_v2007.ttf Akval ir, La police – The Font – Fr – En.pdf Ambos archivos son inaccesibles después de la extracción porque hay […]

Problemas con diéresis en la variable de entorno de aplicación de python

No puedo encontrar una manera correcta de obtener la variable de entorno para la ruta de datos de aplicación en Python. El problema es que mi nombre de usuario incluye caracteres especiales (el alemán ae y ue). Hice una solución alternativa con PyQt para Vista y Windows 7, pero no funciona para sistemas XP. ¿Alguien […]

Python csv: UnicodeDecodeError

Estoy leyendo en un archivo con el módulo csv de Python, y tengo otra pregunta de encoding (lo siento, hay muchos aquí). En el archivo CSV, hay signos £. Después de leer la fila e imprimirla, se han convertido en \ xa3. Intentar codificarlos como Unicode produce un UnicodeDecodeError : row = [unicode(x.strip()) for x […]

Forma pythonica de implementar un tokenizador.

Voy a implementar un tokenizador en Python y me preguntaba si podría ofrecer algún consejo de estilo. He implementado un tokenizer antes en C y en Java, así que estoy de acuerdo con la teoría, me gustaría asegurarme de que estoy siguiendo los estilos y las mejores prácticas de Pythonic. Listado de tipos de fichas: […]

Biblioteca estándar de Python para POST multiparte / datos codificados de datos de formulario

Me gustaría publicar datos codificados multiparte / datos de formulario. He encontrado un módulo externo que lo hace: http://atlee.ca/software/poster/index.html, sin embargo, preferiría evitar esta dependencia. ¿Hay alguna manera de hacer esto usando las bibliotecas estándar? Gracias