Articles of grupo de

Python pandas error al hacer groupby cuentas

Al hacer cuentas de groupby sobre varias columnas, aparece un error. Aquí está mi dataframe y también un ejemplo que simplemente etiqueta los distintos grupos “b” y “c”. df = pd.DataFrame(np.random.randint(0,2,(4,4)), columns=[‘a’, ‘b’, ‘c’, ‘d’]) df[‘gr’] = df.groupby([‘b’, ‘c’]).grouper.group_info[0] print df abcd gr 0 0 1 0 0 1 1 1 1 1 0 2 […]

¿Cómo funciona la función de callback en multiproceso python map_async

Me costó toda una noche depurar mi código, y finalmente encontré este problema complicado. Por favor, eche un vistazo al código de abajo. from multiprocessing import Pool def myfunc(x): return [i for i in range(x)] pool=Pool() A=[] r = pool.map_async(myfunc, (1,2), callback=A.extend) r.wait() Pensé que obtendría A=[0,0,1] , pero la salida es A=[[0],[0,1]] . Esto […]

Mantener las columnas después de un grupo en un dataframe vacío

El dataframe es un df vacío después de la consulta. Cuando esté agrupado, active la advertencia de tiempo de ejecución, luego obtenga otro dataframe vacío sin columnas. ¿Cómo mantener las columnas? df = pd.DataFrame(columns=[“PlatformCategory”,”Platform”,”ResClassName”,”Amount”]) print df resultado: Empty DataFrame Columns: [PlatformCategory, Platform, ResClassName, Amount] Index: [] entonces groupby: df = df.groupby([“PlatformCategory”,”Platform”,”ResClassName”]).sum() df = df.reset_index(drop=False,inplace=True) print […]

¿Cómo hacer groupby en pandas con parte de la cadena de fecha?

Date Description 0 6/09/2012 Amazon 1 6/09/2012 iTunes 2 6/08/2012 iTunes 3 6/08/2012 Building 4 6/08/2012 Slicehost Tengo un DataFrame como el anterior. Puedo seleccionar la parte del día de la cita de datos anterior mediante una función get_day () como esta: def get_day(date_string): d = datetime.strptime(date_string, ‘%m/%d/%Y’) return d.day Ahora, ¿cómo paso esta función […]

Creando y reutilizando objetos en procesos python.

Tengo un problema paralelizantemente embarazoso que consiste en un montón de tareas que se resuelven de forma independiente. Resolver cada una de las tareas es bastante largo, por lo que este es un candidato principal para el multiprocesamiento. El problema es que resolver mis tareas requiere crear un objeto específico que requiera mucho tiempo por […]

¿Cómo encontrar nombres duplicados usando pandas?

Tengo un pandas.DataFrame con una columna llamada name contiene cadenas. Me gustaría obtener una lista de los nombres que aparecen más de una vez en la columna. ¿Cómo puedo hacer eso? Lo intenté: funcs_groups = funcs.groupby(funcs.name) funcs_groups[(funcs_groups.count().name>1)] Pero no filtra los nombres singleton.

Multiproceso de Python – Pasar una lista de dictados a un grupo

Esta pregunta puede ser un duplicado. Sin embargo, leí muchas cosas sobre este tema y no encontré una que coincida con mi caso, o al menos no lo entendí. Perdón por las molestias. Lo que estoy tratando de hacer es bastante común, pasar una lista de kwargs a pool.starmap (), para lograr el multiprocesamiento. Aquí […]

Pandas: Combina TimeGrouper con otro argumento de Groupby

Tengo el siguiente DataFrame: df = pd.DataFrame({ ‘Branch’ : ‘AAAAA B’.split(), ‘Buyer’: ‘Carl Mark Carl Joe Joe Carl’.split(), ‘Quantity’: [1,3,5,8,9,3], ‘Date’ : [ DT.datetime(2013,1,1,13,0), DT.datetime(2013,1,1,13,5), DT.datetime(2013,10,1,20,0), DT.datetime(2013,10,2,10,0), DT.datetime(2013,12,2,12,0), DT.datetime(2013,12,2,14,0), ]}) from pandas.tseries.resample import TimeGrouper ¿Cómo puedo agrupar estos datos por sucursal y en un período de 20 días utilizando TimeGrouper? Todos mis bashs anteriores fallaron, […]

¿Hay una operación “desagrupar por” frente a .groupby en pandas?

Supongamos que partimos de esta tabla simple, almacenada en un dataframe de pandas: name age family 0 john 1 1 1 jason 36 1 2 jane 32 1 3 jack 26 2 4 james 30 2 Entonces lo hago group_df = df.groupby(‘family’) group_df = group_df.aggregate({‘name’: name_join, ‘age’: pd.np.mean}) donde name_join es una función de agregación […]

Python NotImplementedError: los objetos de la agrupación no se pueden pasar entre procesos

Estoy tratando de entregar trabajo cuando se agrega una página a la lista de páginas, pero la salida de mi código devuelve un error NotImplemented. Aquí está el código con lo que estoy tratando de hacer: Código: from multiprocessing import Pool, current_process import time import random import copy_reg import types import threading class PageControler(object): def […]