Articles of clasificación

ordenar datos de texto grandes

Tengo un archivo grande (100 millones de líneas de valores separados por tabuladores, de aproximadamente 1,5 GB de tamaño). ¿Cuál es la forma más rápida conocida de ordenar esto en función de uno de los campos? He intentado la hive. Me gustaría ver si esto se puede hacer más rápido usando python.

¿Rendimiento de iteradores ordenados en orden ordenado en Python?

¿Hay una mejor manera de combinar / agrupar un grupo de iteradores ordenados en uno para que produzca los elementos ordenados? Creo que el código a continuación funciona, pero siento que hay una forma más limpia y concisa de hacerlo que me estoy perdiendo. def sortIters(*iterables, **kwargs): key = kwargs.get(‘key’, lambda x : x) nextElems […]

Clasificación de 5 elementos con comparación mínima de elementos.

Tengo que modelar el plan de ejecución de ordenar una lista de 5 elementos, en python, utilizando el número mínimo de comparaciones entre elementos. Aparte de eso, la complejidad es irrelevante. El resultado es una lista de pares que representan las comparaciones necesarias para ordenar la lista en otro momento. Sé que hay un algoritmo […]

Cómo ordenar de forma personalizada una lista de dictados para usar en json.dumps

Tengo una lista similar a allsites = [ { ‘A5’: ‘G’, ‘A10’: ‘G’, ‘site’: ‘example1.com’, ‘A1’: ‘G’ }, { ‘A5’: ‘R’, ‘A10’: ‘Y’, ‘site’: ‘example2.com’, ‘A1’: ‘G’ } ] Que utilizo en un json.dumps : data = { ‘Author’:”joe”, ‘data’:allsites } print json.dumps(data,sort_keys=True,indent=4, separators=(‘,’, ‘: ‘)) Esto genera el siguiente JSON: { “Author”: “joe”, “data”: […]

Python Pandas divide el índice múltiple por el índice de segundo nivel (o cualquier otro nivel)

Hay muchas publicaciones sobre cómo cortar el nivel [0] de un índice múltiple en un rango de nivel 1 . Sin embargo, no puedo encontrar una solución para mi problema; es decir, necesito un rango del índice de nivel 1 para los valores de índice de nivel [0] dataframe: primero es de la A a […]

Map-Reduce / Hadoop ordenar por valor entero (usando MRJob)

Esta es una implementación de MRJob de una funcionalidad simple de clasificación de reducción de mapa. En beta.py : from mrjob.job import MRJob class Beta(MRJob): def mapper(self, _, line): “”” “”” l = line.split(‘ ‘) yield l[1], l[0] def reducer(self, key, val): yield key, [v for v in val][0] if __name__ == ‘__main__’: Beta.run() Lo […]

Python: ordenando una lista de dependencias

Estoy intentando resolver si mi problema se soluciona con la función ordenada () o si necesito hacerlo yo mismo: la vieja escuela con cmp hubiera sido relativamente fácil. Mi conjunto de datos se ve como: x = [ (‘business’, Set (‘fleet’, ‘address’)) (‘dispositivo’, conjunto (‘negocio’, ‘modelo’, ‘estado’, ‘paquete’)) (‘txn’, Set (‘dispositivo’, ‘negocio’, ‘operador’)) …. La […]

ordenando matrices en números por fila

Me gustaría ordenar una matriz en números por la primera fila. Por ejemplo : import numpy as np test = np.array([[1334.71601720318, 930.9757468052002, 1018.7038817663818], [0.0, 1.0, 2.0], [ np.array([[ 667, 1393], [1961, 474]]), np.array([[ 673, 1389], [ 847, 1280]]), np.array([[ 726, 1077], [ 898, 961]])]], dtype=object) Quiero ordenar la fila: [1334.71601720318, 930.9757468052002, 1018.7038817663818] para obtener : […]

Scikit-learn train_test_split con índices

¿Cómo obtengo los índices originales de los datos cuando uso train_test_split ()? Lo que tengo es lo siguiente from sklearn.cross_validation import train_test_split import numpy as np data = np.reshape(np.randn(20),(10,2)) # 10 training examples labels = np.random.randint(2, size=10) # 10 labels x1, x2, y1, y2 = train_test_split(data, labels, size=0.2) Pero esto no da los índices de […]

¿Cómo ordenar una lista en Jinja2?

Estoy tratando de hacer esto: {% for movie in movie_list | sort(movie.rating) %} Pero eso no es correcto … la documentación es vaga … ¿cómo haces esto en Jinja2?