Articles of pandas groupby

Obtención de los valores máximos del dataframe multindex de pandas

Estoy intentando recuperar solo los valores máximos (incluidos los valores de múltiples índices) de un dataframe de pandas que tiene múltiples índices. El dataframe que tengo se genera a través de una selección de grupo y columna (‘tOfmAJyI’) como esta: df.groupby(‘id’)[‘tOfmAJyI’].value_counts() Out[4]: id tOfmAJyI 3 mlNXN 4 SSvEP 2 hCIpw 2 5 SSvEP 2 hCIpw […]

Acelerar Pandas Cummin / Cummax

cummax funciones de pandas cummax y cummax parecen ser muy lentas para mi caso de uso con muchos grupos. ¿Cómo puedo acelerarlos? Actualizar import pandas as pd import numpy as np from collections import defaultdict def cummax(g, v): df1 = pd.DataFrame(g, columns=[‘group’]) df2 = pd.DataFrame(v) df = pd.concat([df1, df2], axis=1) result = df.groupby(‘group’).cummax() result = […]

Diferencia horaria dentro del grupo por objetos en Python Pandas

Tengo un dataframe que se ve así: from to datetime other ————————————————- 11 1 2016-11-06 22:00:00 – 11 1 2016-11-06 20:00:00 – 11 1 2016-11-06 15:45:00 – 11 12 2016-11-06 15:00:00 – 11 1 2016-11-06 12:00:00 – 11 18 2016-11-05 10:00:00 – 11 12 2016-11-05 10:00:00 – 12 1 2016-10-05 10:00:59 – 12 3 2016-09-06 […]

Grupo Python Pandas por fecha usando datos de fecha y hora

Tengo una columna Date_Time que deseo agrupar por fecha y hora sin crear una nueva columna. Es posible que el código actual que tengo no funcione. df = pd.groupby(df,by=[df[‘Date_Time’].date()])

¿Cuál es la diferencia entre pandas agg y función de aplicación?

No puedo entender la diferencia entre las funciones .aggregate y .apply Pandas. Tome como ejemplo lo siguiente: cargue un conjunto de datos, groupby un groupby , defino una función simple y el usuario .agg o .apply . Como puede ver, la statement de impresión dentro de mi función produce el mismo resultado después de usar […]

Cálculo porcentual en pandas de tabla dinámica con columnas

Tengo un conjunto de datos que contiene varios registros de ventas de diferentes proveedores, ubicaciones, fechas y productos. El conjunto de datos es así: local categoria fabricante tipo consistencia peso pacote ordem vendas_kg AREA I SABAO ASATP DILUIDO LIQUIDO 1501 A 2000g PLASTICO 1 10 AREA I SABAO TEPOS DILUIDO LIQUIDO 1501 A 2000g PLASTICO […]

Pandas groupby con categorías con nan redundante.

Estoy teniendo problemas al usar pandas groupby con datos categóricos. En teoría, debería ser súper eficiente: está agrupando e indexando a través de enteros en lugar de cadenas. Pero insiste en que, al agrupar por categorías múltiples, se debe tener en cuenta cada combinación de categorías . A veces utilizo categorías incluso cuando hay una […]

Pandas – dataframe groupby – cómo obtener la sum de varias columnas

Esto debería ser fácil, pero de alguna manera no pude encontrar una solución que funcione. Tengo un dataframe de pandas que se ve así: index col1 col2 col3 col4 col5 0 ac 1 2 f 1 ac 1 2 f 2 ad 1 2 f 3 bd 1 2 g 4 be 1 2 g […]

Pandas Groupby Cómo mostrar cero cuentas en DataFrame

Tengo el siguiente dataframe de Pandas: Name | EventSignupNo | Attended | Points Smith | 0145 | Y | 20.24 Smith | 0174 | Y | 29.14 Smith | 0239 | N | 0 Adams | 0145 | N | 0 Adams | 0174 | Y | 33.43 Morgan | 0239 | Y | 31.23 […]

¿Por qué el primero y el último en un grupo no me da el primero y el último?

Estoy publicando esto porque el tema acaba de aparecer en otra pregunta / respuesta y el comportamiento no está muy bien documentado. Considere el df dataframe df = pd.DataFrame(dict( A=list(‘xxxyyy’), B=[np.nan, 1, 2, 3, 4, np.nan] )) AB 0 x NaN 1 x 1.0 2 x 2.0 3 y 3.0 4 y 4.0 5 y […]