Articles of por

Pasando argumento en groupby.agg con múltiples funciones

¿Alguien sabe cómo pasar argumentos en un groupby.agg () con múltiples funciones? En pocas palabras, me gustaría usarlo con una función personalizada, pero haré mi pregunta usando una función incorporada que necesite un argumento. Asumiendo: import pandas as pd import numpy as np import datetime np.random.seed(15) day = datetime.date.today() day_1 = datetime.date.today() – datetime.timedelta(1) day_2 […]

Python: agrupar elementos de lista en un dict

Quiero generar un diccionario a partir de una lista de diccionarios, agrupando los elementos de la lista por el valor de alguna clave, como: input_list = [ {‘a’:’tata’, ‘b’: ‘foo’}, {‘a’:’pipo’, ‘b’: ‘titi’}, {‘a’:’pipo’, ‘b’: ‘toto’}, {‘a’:’tata’, ‘b’: ‘bar’} ] output_dict = { ‘pipo’: [ {‘a’: ‘pipo’, ‘b’: ‘titi’}, {‘a’: ‘pipo’, ‘b’: ‘toto’} ], ‘tata’: […]

¿Cómo hacer referencia a un grupo por índice cuando se usa apply, transform, agg – Python Pandas?

Para ser concretos, digamos que tenemos dos DataFrames: df1: date A 0 12/1/14 3 1 12/1/14 1 2 12/3/14 2 3 12/3/14 3 4 12/3/14 4 5 12/6/14 5 df2: B 12/1/14 10 12/2/14 20 12/3/14 10 12/4/14 30 12/5/14 10 12/6/14 20 Ahora quiero agrupar por fecha en df1, y tomar una sum del […]

pandas dividen el valor de la fila por la sum agregada con una condición establecida por otra celda

Hola Con la esperanza de obtener ayuda, tengo dos columnas Dataframe df as; Source ID 1 2 2 3 1 2 1 2 1 3 3 1 Mi intención es agrupar la Fuente y dividir la celda de ID por el total en función de la Fuente agrupada y adjuntar esto al dataframe original para […]

pandas groupby concatenar cadenas en múltiples columnas

Tengo este dataframe pandas: df = DataFrame({‘id’:[‘a’,’b’,’b’,’b’,’c’,’c’], ‘category’:[‘z’,’z’,’x’,’y’,’y’,’y’], ‘category2’:[‘1′,’2′,’2′,’2′,’1′,’2’]}) que se parece a category category2 id 0 z 1 a 1 z 2 b 2 x 2 b 3 y 2 b 4 y 1 c 5 y 2 c Lo que me gustaría hacer es agrupar por id y devolver las otras dos columnas […]

Pandas: Combina TimeGrouper con otro argumento de Groupby

Tengo el siguiente DataFrame: df = pd.DataFrame({ ‘Branch’ : ‘AAAAA B’.split(), ‘Buyer’: ‘Carl Mark Carl Joe Joe Carl’.split(), ‘Quantity’: [1,3,5,8,9,3], ‘Date’ : [ DT.datetime(2013,1,1,13,0), DT.datetime(2013,1,1,13,5), DT.datetime(2013,10,1,20,0), DT.datetime(2013,10,2,10,0), DT.datetime(2013,12,2,12,0), DT.datetime(2013,12,2,14,0), ]}) from pandas.tseries.resample import TimeGrouper ¿Cómo puedo agrupar estos datos por sucursal y en un período de 20 días utilizando TimeGrouper? Todos mis bashs anteriores fallaron, […]

Crea dos columnas agregadas por grupo por pandas

Soy nuevo en DataFrames y quiero agrupar varias columnas y luego sumr y mantener un recuento en la última columna. p.ej s = pd.DataFrame(np.matrix([[1, 2,3,4], [3, 4,7,6],[3,4,5,6],[1,2,3,7]]), columns=[‘a’, ‘b’, ‘c’, ‘d’]) abcd 0 1 2 3 4 1 3 4 7 6 2 3 4 5 6 3 1 2 3 7 Quiero agrupar en […]

¿Cómo usar groupby para aplicar múltiples funciones a múltiples columnas en Pandas?

Tengo un df normal A = pd.DataFrame([[1, 5, 2], [2, 4, 4], [3, 3, 1], [4, 2, 2], [5, 1, 4]], columns=[‘A’, ‘B’, ‘C’], index=[1, 2, 3, 4, 5]) Siguiendo esta receta , obtuve los resultados que quería. In [62]: A.groupby((A[‘A’] > 2)).apply(lambda x: pd.Series(dict( up_B=(xB >= 0).sum(), down_B=(xB = 0).sum(), down_C=(xC < 0).sum(), mean_C=(xC).mean(), […]

Python pandas groupby key error en pandas.hashtable.PyObjectHashTable.get_item

Estoy haciendo lo que parece ser un grupo simple en Pandas. La columna es una columna de cadena sin cadenas de NaN o cadenas extrañas. Sin embargo, sigo recibiendo el error de abajo. ¿Alguien sabe por qué sucede esto? Siento que puede tener algo que ver con mis datos, pero todo parece estar bien … […]

¿Hay una operación “desagrupar por” frente a .groupby en pandas?

Supongamos que partimos de esta tabla simple, almacenada en un dataframe de pandas: name age family 0 john 1 1 1 jason 36 1 2 jane 32 1 3 jack 26 2 4 james 30 2 Entonces lo hago group_df = df.groupby(‘family’) group_df = group_df.aggregate({‘name’: name_join, ‘age’: pd.np.mean}) donde name_join es una función de agregación […]