Articles of encoding de

Python, consola de Windows y codificaciones (cp 850 vs cp1252)

Pensé que sabía todo sobre codificaciones y Python, pero hoy me encontré con un problema extraño: aunque la consola está configurada en la página de códigos 850 (y Python lo informa correctamente), los parámetros que puse en la línea de comandos parecen estar codificados en la página de códigos 1252 . Si bash descodificarlos con […]

Python “string_escape” vs “unicode_escape”

Según los documentos , la cadena incorporada codifica string_escape : Produce [s] una cadena que es adecuada como cadena literal en el código fuente de Python … mientras que el unicode_escape : Produce [s] una cadena que es adecuada como literal Unicode en el código fuente de Python Por lo tanto, deberían tener aproximadamente el […]

hashlib.md5 () TypeError: los objetos Unicode se deben codificar antes del hashing

Soy nuevo en la encoding y me he encontrado con un problema al intentar codificar una cadena. >>> import hashlib >>> a = hashlib.md5() >>> a.update(‘hi’) Traceback (most recent call last): File “”, line 1, in a.update(‘hi’) TypeError: Unicode-objects must be encoded before hashing >>> a.digest() b’\xd4\x1d\x8c\xd9\x8f\x00\xb2\x04\xe9\x80\t\x98\xec\xf8B~’ ¿Se considera (a) ahora que está codificado? Segunda […]

Método de fábrica para los objetos: ¿mejores prácticas?

Esta es una pregunta relacionada con las mejores prácticas para crear una instancia de una clase o tipo a partir de diferentes formas de los mismos datos utilizando Python. ¿Es mejor usar un método de clase o es mejor usar una función separada por completo? Digamos que tengo una clase utilizada para describir el tamaño […]

¿Cómo saber la encoding de un archivo en Python?

¿Alguien sabe cómo obtener la encoding de un archivo en Python? Sé que puede usar el módulo de códecs para abrir un archivo con una encoding específica, pero debe saberlo de antemano. import codecs f = codecs.open(“file.txt”, “r”, “utf-8”) ¿Hay una manera de detectar automáticamente qué encoding se utiliza para un archivo? Gracias por adelantado […]

Obtenga una lista de todas las codificaciones que Python puede codificar para

Estoy escribiendo un script que intentará codificar bytes en muchas codificaciones diferentes en Python 2.6. ¿Hay alguna forma de obtener una lista de codificaciones disponibles que pueda repetir? La razón por la que estoy tratando de hacer esto es porque un usuario tiene un texto que no está codificado correctamente. Hay personajes divertidos. Conozco al […]

scikit-learn: una encoding en caliente de funciones categóricas de cadenas

Estoy tratando de realizar una encoding en caliente de un conjunto de datos trivial. data = [[‘a’, ‘dog’, ‘red’] [‘b’, ‘cat’, ‘green’]] ¿Cuál es la mejor manera de preprocesar estos datos utilizando Scikit-Learn? En primer instinto, mirarías hacia OneHotEncoder de Scikit -Learn. Pero el único codificador activo no admite cadenas como características; sólo discretiza enteros. […]

Python … problema de encoding al usar Linux>

progtwig de prueba simple de un problema de encoding: #!/bin/env python # -*- coding: utf-8 -*- print u”Råbjerg” # >>> unicodedata.name(u”å”) = ‘LATIN SMALL LETTER A WITH RING ABOVE’ esto es lo que obtengo cuando lo uso desde un cuadro de comando de Debian, no entiendo por qué el uso de la redirección aquí lo […]

De dónde viene esto: – * – encoding: utf-8 – * –

Python reconoce lo siguiente como una instrucción que define la encoding del archivo: # -*- coding: utf-8 -*- Definitivamente vi este tipo de instrucciones antes ( -*- var: value -*- ). ¿De dónde viene? ¿Cuál es la especificación completa, por ejemplo, el valor puede incluir espacios, símbolos especiales, nuevas líneas, incluso -*- sí? Mi progtwig […]

Imprimir la lista de caracteres Unicode sin caracteres de escape

Si tiene una cadena como la que se muestra a continuación, con caracteres Unicode, puede imprimirla y obtener la versión sin escaparse: >>> s = “äåö” >>> s ‘\xc3\xa4\xc3\xa5\xc3\xb6’ >>> print s äåö pero si tenemos una lista que contiene la cadena de arriba e imprímala: >>> s = [‘äåö’] >>> s [‘\xc3\xa4\xc3\xa5\xc3\xb6’] >>> print […]