Articles of grupo de

Pandas: Combina TimeGrouper con otro argumento de Groupby

Tengo el siguiente DataFrame: df = pd.DataFrame({ ‘Branch’ : ‘AAAAA B’.split(), ‘Buyer’: ‘Carl Mark Carl Joe Joe Carl’.split(), ‘Quantity’: [1,3,5,8,9,3], ‘Date’ : [ DT.datetime(2013,1,1,13,0), DT.datetime(2013,1,1,13,5), DT.datetime(2013,10,1,20,0), DT.datetime(2013,10,2,10,0), DT.datetime(2013,12,2,12,0), DT.datetime(2013,12,2,14,0), ]}) from pandas.tseries.resample import TimeGrouper ¿Cómo puedo agrupar estos datos por sucursal y en un período de 20 días utilizando TimeGrouper? Todos mis bashs anteriores fallaron, […]

¿Hay una operación “desagrupar por” frente a .groupby en pandas?

Supongamos que partimos de esta tabla simple, almacenada en un dataframe de pandas: name age family 0 john 1 1 1 jason 36 1 2 jane 32 1 3 jack 26 2 4 james 30 2 Entonces lo hago group_df = df.groupby(‘family’) group_df = group_df.aggregate({‘name’: name_join, ‘age’: pd.np.mean}) donde name_join es una función de agregación […]

Python NotImplementedError: los objetos de la agrupación no se pueden pasar entre procesos

Estoy tratando de entregar trabajo cuando se agrega una página a la lista de páginas, pero la salida de mi código devuelve un error NotImplemented. Aquí está el código con lo que estoy tratando de hacer: Código: from multiprocessing import Pool, current_process import time import random import copy_reg import types import threading class PageControler(object): def […]

Python Pandas Groupby () Resultado

Tengo el siguiente dataframe de los pandas de Python: df = pd.DataFrame( { ‘A’: [1,1,1,1,2,2,2,3,3,4,4,4], ‘B’: [5,5,6,7,5,6,6,7,7,6,7,7], ‘C’: [1,1,1,1,1,1,1,1,1,1,1,1] } ); df ABC 0 1 5 1 1 1 5 1 2 1 6 1 3 1 7 1 4 2 5 1 5 2 6 1 6 2 6 1 7 3 7 1 […]

¿Cómo solucionar problemas de un “AttributeError: __exit__” en multiprocceso en Python?

Intenté volver a escribir algún código de lectura CSV para poder ejecutarlo en varios núcleos en Python 3.2.2. Intenté usar el objeto de multiprocesamiento Pool , que adapté de los ejemplos de trabajo (y ya trabajé para mí en otra parte de mi proyecto). Me encontré con un mensaje de error que me resultó difícil […]

Tablas de frecuencia en pandas (como plyr en R)

Mi problema es cómo calcular frecuencias en múltiples variables en pandas. Tengo de este dataframe: d1 = pd.DataFrame( {‘StudentID’: [“x1”, “x10”, “x2″,”x3”, “x4”, “x5”, “x6”, “x7”, “x8”, “x9”], ‘StudentGender’ : [‘F’, ‘M’, ‘F’, ‘M’, ‘F’, ‘M’, ‘F’, ‘M’, ‘M’, ‘M’], ‘ExamenYear’: [‘2007′,’2007′,’2007′,’2008′,’2008′,’2008′,’2008′,’2009′,’2009′,’2009’], ‘Exam’: [‘algebra’, ‘stats’, ‘bio’, ‘algebra’, ‘algebra’, ‘stats’, ‘stats’, ‘algebra’, ‘bio’, ‘bio’], ‘Participated’: [‘no’,’yes’,’yes’,’yes’,’no’,’yes’,’yes’,’yes’,’yes’,’yes’], […]

¿Los grupos de multiprocesamiento otorgan a cada proceso la misma cantidad de tareas, o se asignan como disponibles?

Cuando se asigna un iterable a un multiprocessing.Pool ¿Las iteraciones se dividen en una cola para cada proceso en el grupo al comienzo, o hay una cola común de la que se toma una tarea cuando un proceso se libera? def generate_stuff(): for foo in range(100): yield foo def process(moo): print moo pool = multiprocessing.Pool() […]

terminación de grupo de multiprocesamiento de Python

Estoy trabajando en una granja de renderizado, y necesito que mis clientes puedan iniciar varias instancias de un renderizador, sin bloquear para que el cliente pueda recibir nuevos comandos. Lo tengo funcionando correctamente, sin embargo, estoy teniendo problemas para terminar los procesos creados. A nivel global, defino mi grupo (para poder acceder a él desde […]

Uso de cumsum en pandas en grupo ()

De un novato de Pandas: tengo datos que se parecen esencialmente a esto: data1=pd.DataFrame({‘Dir’:[‘E’,’E’,’W’,’W’,’E’,’W’,’W’,’E’], ‘Bool’:[‘Y’,’N’,’Y’,’N’,’Y’,’N’,’Y’,’N’], ‘Data’:[4,5,6,7,8,9,10,11]}, index=pd.DatetimeIndex([’12/30/2000′,’12/30/2000′,’12/30/2000′,’1/2/2001′,’1/3/2001′,’1/3/2001′,’12/30/2000′,’12/30/2000′])) data1 Out[1]: Bool Data Dir 2000-12-30 Y 4 E 2000-12-30 N 5 E 2000-12-30 Y 6 W 2001-01-02 N 7 W 2001-01-03 Y 8 E 2001-01-03 N 9 W 2000-12-30 Y 10 W 2000-12-30 N 11 E Y […]

Perfilando un grupo de multiprocesamiento de python

Estoy intentando ejecutar cProfile.runctx () en cada proceso en un grupo de multiprocesamiento, para tener una idea de cuáles son los cuellos de botella de multiprocesamiento en mi origen. Aquí hay un ejemplo simplificado de lo que estoy tratando de hacer: from multiprocessing import Pool import cProfile def square(i): return i*i def square_wrapper(i): cProfile.runctx(“result = […]