Articles of por

pandas obtener promedio de un groupby

Estoy tratando de encontrar el costo mensual promedio por usuario_id, pero solo puedo obtener el costo promedio por usuario o el costo mensual por usuario. Debido a que agrupo por usuario y mes, no hay manera de obtener el promedio del segundo grupo por (mes) a menos que transforme la salida de groupby a otra […]

pandas, aplique múltiples funciones de múltiples columnas al objeto groupby

Quiero aplicar varias funciones de varias columnas a un objeto groupby que da como resultado un nuevo pandas.DataFrame . Sé cómo hacerlo en pasos separados: by_user = lasts.groupby(‘user’) elapsed_days = by_user.apply(lambda x: (x.elapsed_time * x.num_cores).sum() / 86400) running_days = by_user.apply(lambda x: (x.running_time * x.num_cores).sum() / 86400) user_df = elapsed_days.to_frame(‘elapsed_days’).join(running_days.to_frame(‘running_days’)) Lo que resulta en user_df siendo: […]

Python pandas error al hacer groupby cuentas

Al hacer cuentas de groupby sobre varias columnas, aparece un error. Aquí está mi dataframe y también un ejemplo que simplemente etiqueta los distintos grupos “b” y “c”. df = pd.DataFrame(np.random.randint(0,2,(4,4)), columns=[‘a’, ‘b’, ‘c’, ‘d’]) df[‘gr’] = df.groupby([‘b’, ‘c’]).grouper.group_info[0] print df abcd gr 0 0 1 0 0 1 1 1 1 1 0 2 […]

pandas ¿cómo usar groupby para agrupar columnas por fecha en la etiqueta?

Tengo un dataframe 10730 filas x 249 columnas, tengo columnas: Index([‘RegionID’, ‘Metro’, ‘CountyName’, ‘SizeRank’, ‘1996-04’, ‘1996-05’, ‘1996-06’, ‘1996-07’, ‘1996-08’, ‘1996-09’, … ‘2015-11’, ‘2015-12’, ‘2016-01’, ‘2016-02’, ‘2016-03’, ‘2016-04’, ‘2016-05’, ‘2016-06’, ‘2016-07’, ‘2016-08′], dtype=’object’, length=249) así que lo que debo hacer es agrupar las columnas por trimestre, jan para marchar Q1, y así sucesivamente hasta Q4 (usando […]

Python pandas regresión lineal groupby

Estoy tratando de usar una regresión lineal en un grupo por el dataframe de pandas python: Este es el df dataframe: group date value A 01-02-2016 16 A 01-03-2016 15 A 01-04-2016 14 A 01-05-2016 17 A 01-06-2016 19 A 01-07-2016 20 B 01-02-2016 16 B 01-03-2016 13 B 01-04-2016 13 C 01-02-2016 16 C […]

Pandas consiguen filas después de groupby

Supongamos que tengo el siguiente conjunto de datos: uid iid val 1 1 2 1 2 3 1 3 4 1 4 4.5 1 5 5.5 2 1 3 2 2 3 2 3 4 3 4 4.5 3 5 5.5 A partir de estos datos, quiero agrupar primero por uid, luego obtener el último […]

clasifica dentro de groupby en pandas

Tengo un “panel de datos” típico (en términos econométricos, no objeto de panel de pandas). El dataframe tiene una columna Date y una columna ID , y otras columnas que contienen ciertos valores. Para cada Fecha, necesito clasificar de manera transversal las distintas identificaciones basadas en V1 en 10 grupos (deciles) y crear una nueva […]

Mantener las columnas después de un grupo en un dataframe vacío

El dataframe es un df vacío después de la consulta. Cuando esté agrupado, active la advertencia de tiempo de ejecución, luego obtenga otro dataframe vacío sin columnas. ¿Cómo mantener las columnas? df = pd.DataFrame(columns=[“PlatformCategory”,”Platform”,”ResClassName”,”Amount”]) print df resultado: Empty DataFrame Columns: [PlatformCategory, Platform, ResClassName, Amount] Index: [] entonces groupby: df = df.groupby([“PlatformCategory”,”Platform”,”ResClassName”]).sum() df = df.reset_index(drop=False,inplace=True) print […]

¿Cómo hacer groupby en pandas con parte de la cadena de fecha?

Date Description 0 6/09/2012 Amazon 1 6/09/2012 iTunes 2 6/08/2012 iTunes 3 6/08/2012 Building 4 6/08/2012 Slicehost Tengo un DataFrame como el anterior. Puedo seleccionar la parte del día de la cita de datos anterior mediante una función get_day () como esta: def get_day(date_string): d = datetime.strptime(date_string, ‘%m/%d/%Y’) return d.day Ahora, ¿cómo paso esta función […]

¿Cómo aplicar diferentes funciones a un objeto groupby?

Tengo un dataframe como este: import pandas as pd df = pd.DataFrame({‘id’: [1, 2, 1, 1, 2, 1, 2, 2], ‘min_max’: [‘max_val’, ‘max_val’, ‘min_val’, ‘min_val’, ‘max_val’, ‘max_val’, ‘min_val’, ‘min_val’], ‘value’: [1, 20, 20, 10, 12, 3, -10, -5 ]}) id min_max value 0 1 max_val 1 1 2 max_val 20 2 1 min_val 20 3 […]