Articles of grupo de

¿Cómo contar valores distintos en una columna de un grupo de pandas por objeto?

Tengo un dataframe de pandas y lo col2 por dos columnas (por ejemplo, col1 y col2 ). Para valores fijos de col1 y col2 (es decir, para un grupo) puedo tener varios valores diferentes en col3 . Me gustaría contar el número de valores distintos de las terceras columnas. Por ejemplo, si tengo esto como […]

Pandas groupby y qcut

¿Hay alguna forma de estructurar los comandos Pandby groupby y qcut para devolver una columna que tenga mosaicos nesteds? Específicamente, suponga que tengo 2 grupos de datos y quiero que se aplique qcut a cada grupo y luego devuelva la salida a una columna. Esto sería similar al comando ntile () de MS SQL Server […]

El uso de la memoria sigue creciendo con el multiproceso de Python.

Aquí está el progtwig: #!/usr/bin/python import multiprocessing def dummy_func(r): pass def worker(): pass if __name__ == ‘__main__’: pool = multiprocessing.Pool(processes=16) for index in range(0,100000): pool.apply_async(worker, callback=dummy_func) # clean up pool.close() pool.join() Descubrí que el uso de la memoria (tanto VIRT como RES) siguió creciendo hasta el cierre () / join (), ¿hay alguna solución para […]

No puedo decapitar usando el multiproceso de Pool.apply_async de Python ()

Quiero correr algo como esto: from multiprocessing import Pool import time import random class Controler(object): def __init__(self): nProcess = 10 pages = 10 self.__result = [] self.manageWork(nProcess,pages) def BarcodeSearcher(x): return x*x def resultCollector(self,result): self.__result.append(result) def manageWork(self,nProcess,pages): pool = Pool(processes=nProcess) for pag in range(pages): pool.apply_async(self.BarcodeSearcher, args = (pag, ), callback = self.resultCollector) print self.__result if __name__ […]

Filtro de dataframe después de groupby y nunique en pandas

df.groupby(“item”)[“variable”].nunique() y devuelve un conteo único de cada objeto de item. quiero filtrar para devolver solo el recuento de “variable”> 3 condicional en el elemento Groupby … ¿hay un método?

Método estático no puede decapar – multiprocesamiento – Python

Estoy aplicando algo de paralelización a mi código, en el que uso clases. Sabía que no es posible elegir un método de clase sin ningún otro enfoque diferente del que proporciona Python. He encontrado una solución aquí . En mi código, tengo partes que deberían estar en paralelo, ambas usando clase. Aquí, estoy publicando un […]

Python: escritura en un solo archivo con cola mientras se usa el grupo de multiprocesamiento

Tengo cientos de miles de archivos de texto que quiero analizar de varias maneras. Quiero guardar la salida en un solo archivo sin problemas de sincronización. He estado usando el pool de multiprocesamiento para hacer esto para ahorrar tiempo, pero no puedo averiguar cómo combinar el pool y la cola. El siguiente código guardará el […]

Cómo usar Python multiprocessing Pool.map para rellenar una matriz numpy en un bucle for

Quiero llenar una matriz de números 2D en un bucle for y ajustar el cálculo mediante el uso de multiprocesamiento. import numpy from multiprocessing import Pool array_2D = numpy.zeros((20,10)) pool = Pool(processes = 4) def fill_array(start_val): return range(start_val,start_val+10) list_start_vals = range(40,60) for line in xrange(20): array_2D[line,:] = pool.map(fill_array,list_start_vals) pool.close() print array_2D El efecto de ejecutarlo […]

¿Cómo restablecer los índices de un DataFrame para todos los grupos en un solo paso?

He tratado de dividir mi dataframe en grupos df = pd.DataFrame({‘A’ : [‘foo’, ‘bar’, ‘foo’, ‘bar’, ‘foo’, ‘bar’, ‘foo’, ‘foo’], ‘B’ : [‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’], }) grouped = df.groupby(‘A’) Tengo 2 grupos AB 0 foo 1 2 foo 3 4 foo 5 6 foo 7 7 foo 8 AB 1 […]

obtener los primeros y últimos valores en un groupby

Tengo un df df = pd.DataFrame(np.arange(20).reshape(10, -1), [[‘a’, ‘a’, ‘a’, ‘a’, ‘b’, ‘b’, ‘b’, ‘c’, ‘c’, ‘d’], [‘a’, ‘b’, ‘c’, ‘d’, ‘e’, ‘f’, ‘g’, ‘h’, ‘i’, ‘j’]], [‘X’, ‘Y’]) ¿Cómo obtengo las primeras y últimas filas, agrupadas por el primer nivel del índice? Lo intenté df.groupby(level=0).agg([‘first’, ‘last’]).stack() y consiguió XY a first 0 1 last […]