Articles of pandas groupby

Pandas: GroupBy a DataFrame

Hay una pregunta SO muy popular con respecto a groupby a dataframe, consulte aquí . Desafortunadamente, no creo que este caso de uso en particular sea el más útil. Supongamos que tiene lo que podría ser un conjunto de datos jerárquico en forma aplanada: p.ej key val 0 ‘a’ 2 1 ‘a’ 1 2 ‘b’ […]

No se puede acceder a las columnas individuales de un objeto grupal de un dataframe después de agruparlo

Esta pregunta es similar a esta , pero con una diferencia crucial: la solución a la pregunta vinculada no resuelve el problema cuando el dataframe se agrupa en contenedores. El siguiente código para graficar la distribución relativa de los contenedores de las 2 variables produce un error: import pandas as pd import seaborn as sns […]

Asigne grupos de control vs. tratamiento al azar en base a% para más de 2 grupos

Haciendo a un lado mi propia pregunta anterior, los pandas de Python: asignar grupos de control frente a grupos de tratamiento de forma aleatoria basados ​​en% Gracias a @maxU, sé cómo asignar grupos de control / tratamiento aleatorios a 2 grupos; pero ¿y si tengo 3 grupos o más? Por ejemplo: df.head() customer_id | Group […]

Inserte filas como resultado de una operación grupal en el dataframe original

Por ejemplo, tengo un dataframe de pandas de la siguiente manera: col_1 col_2 col_3 col_4 a X 5 1 a Y 3 2 a Z 6 4 b X 7 8 b Y 4 3 b Z 6 5 Y quiero, para cada valor en col_1, agregar los valores en col_3 y col_4 (y muchas […]

pandas groupby cayendo columnas

Estoy haciendo un grupo simple por operación, tratando de comparar medios de grupo. Como puede ver a continuación, he seleccionado columnas específicas de un dataframe más grande, del cual se han eliminado todos los valores faltantes. Pero cuando me agrupo, estoy perdiendo un par de columnas: Nunca me he encontrado con pandas, y no encuentro […]

Python Pandas: Asignar el último valor del grupo DataFrame a todas las entradas de ese grupo

En Python Pandas, tengo un DataFrame. Agrupo este DataFrame por una columna y quiero asignar el último valor de una columna a todas las filas de otra columna. Sé que puedo seleccionar la última fila del grupo con este comando: import pandas as pd df = pd.DataFrame({‘a’: (1,1,2,3,3), ‘b’:(20,21,30,40,41)}) print(df) print(“-“) result = df.groupby(‘a’).nth(-1) print(result) […]

Pandas: sum columnas múltiples y obtén resultados en columnas múltiples

Tengo un “sample.txt” como este. idx ABCD cat J 1 2 3 1 x K 4 5 6 2 x L 7 8 9 3 y M 1 2 3 4 y N 4 5 6 5 z O 7 8 9 6 z Con este conjunto de datos, quiero obtener la sum en la […]

Pandas `agg` a la lista,” AttributeError / ValueError: la función no se reduce “

A menudo, cuando realizamos operaciones groupby usando pandas, es posible que deseamos aplicar varias funciones en varias series. groupby.agg parece la forma natural de realizar estas agrupaciones y cálculos. Sin embargo, parece existir una discrepancia entre cómo se implementan groupby.agg y groupby.apply , porque no puedo agrupar a una lista usando agg . Tuple y […]

pandas: GroupBy .pipe () vs .apply ()

En el ejemplo de la documentación de pandas sobre el nuevo método .pipe() para objetos GroupBy, un método .apply() que acepte la misma lambda devolverá los mismos resultados. In [195]: import numpy as np In [196]: n = 1000 In [197]: df = pd.DataFrame({‘Store’: np.random.choice([‘Store_1’, ‘Store_2’], n), …..: ‘Product’: np.random.choice([‘Product_1’, ‘Product_2’, ‘Product_3’], n), …..: ‘Revenue’: […]

Dividir un dataframe en múltiples marcos de datos de 5 segundos en Python

Tengo un conjunto de datos relativamente grande que quiero dividir en múltiples marcos de datos en Python basado en una columna que contiene un objeto de fecha y hora. Los valores en la columna (por los que quiero dividir el dataframe) se dan en el siguiente formato: 2015-11-01 00:00:05 Puedes asumir que el dataframe se […]