Articles of marcos de datos de los

pandas obtener promedio de un groupby

Estoy tratando de encontrar el costo mensual promedio por usuario_id, pero solo puedo obtener el costo promedio por usuario o el costo mensual por usuario. Debido a que agrupo por usuario y mes, no hay manera de obtener el promedio del segundo grupo por (mes) a menos que transforme la salida de groupby a otra […]

Cómo reducir la muestra de un dataframe de pandas por 2×2 promediando el kernel

Estoy tratando de muestrear un dataframe de pandas para reducir la granularidad. En el ejemplo, quiero reducir este dataframe: 1 2 3 4 2 4 3 3 2 2 1 3 3 1 3 2 para esto (reducir el muestreo para obtener un dataframe de 2×2 usando la media): 2.25 3.25 2 2.25 ¿Hay una […]

Mostrar filas con uno o más valores de NaN en el dataframe de pandas

Tengo un dataframe en el que algunas filas contienen valores perdidos. In [31]: df.head() Out[31]: alpha1 alpha2 gamma1 gamma2 chi2min filename M66_MI_NSRh35d32kpoints.dat 0.8016 0.9283 1.000000 0.074804 3.985599e+01 F71_sMI_DMRI51d.dat 0.0000 0.0000 NaN 0.000000 1.000000e+25 F62_sMI_St22d7.dat 1.7210 3.8330 0.237480 0.150000 1.091832e+01 F41_Car_HOC498d.dat 1.1670 2.8090 0.364190 0.300000 7.966335e+00 F78_MI_547d.dat 1.8970 5.4590 0.095319 0.100000 2.593468e+01 Quiero mostrar en esas […]

pandas, aplique múltiples funciones de múltiples columnas al objeto groupby

Quiero aplicar varias funciones de varias columnas a un objeto groupby que da como resultado un nuevo pandas.DataFrame . Sé cómo hacerlo en pasos separados: by_user = lasts.groupby(‘user’) elapsed_days = by_user.apply(lambda x: (x.elapsed_time * x.num_cores).sum() / 86400) running_days = by_user.apply(lambda x: (x.running_time * x.num_cores).sum() / 86400) user_df = elapsed_days.to_frame(‘elapsed_days’).join(running_days.to_frame(‘running_days’)) Lo que resulta en user_df siendo: […]

¿El método más rápido para encontrar datos de otra fila en Pandas DataFrame basado en el cálculo de datos de columna?

Sin recurrir al bucle a través de cada fila individual del dataframe, que puede ser muy lento para grandes conjuntos de datos, ¿cómo puedo usar el resultado calculado de dos columnas en una fila, 2*A – B , para encontrar un valor en la columna B y desde esa nueva fila extrae datos de la […]

¿Eliminar los nombres de usuario de un dataframe que no aparecen un número determinado de veces?

Estoy tratando de entender lo que se proporciona a continuación (que encontré en línea, pero no entiendo completamente). Básicamente, quiero eliminar los nombres de usuario que no aparecen en mi dataframe al menos 4 veces (aparte de eliminar estos nombres, no quiero modificar el dataframe de ninguna otra manera). ¿El siguiente código resuelve este problema […]

Adjuntar lista a pandas DataFrame como nueva fila con índice

A pesar de las numerosas preguntas de desbordamiento de stack en la adición de datos a un dataframe, realmente no pude encontrar una respuesta a la siguiente. Estoy buscando una solución directa para agregar una lista como última fila de un dataframe. Imagina que tengo un simple dataframe: indexlist=[‘one’] columnList=list(‘ABC’) values=np.array([1,2,3]) # take care, the […]

Pandas consiguen filas después de groupby

Supongamos que tengo el siguiente conjunto de datos: uid iid val 1 1 2 1 2 3 1 3 4 1 4 4.5 1 5 5.5 2 1 3 2 2 3 2 3 4 3 4 4.5 3 5 5.5 A partir de estos datos, quiero agrupar primero por uid, luego obtener el último […]

Crear un pd.Dataframe de la serie

Tengo un Dataframe como este: luego obtendré una fila con esto y agregaré una nueva columna con un nombre y tiempo de nombre de columna 15. loc_OBL_ein = df.loc[5] loc_OBL_ein.insert(1,’time’,value=15) luego me aparece un error El objeto ‘Serie’ no tiene ningún atributo ‘insertar’. Mi idea ahora era convertir loc_OBL_ein en un objeto con los mismos […]

¿Cómo aplicar diferentes funciones a un objeto groupby?

Tengo un dataframe como este: import pandas as pd df = pd.DataFrame({‘id’: [1, 2, 1, 1, 2, 1, 2, 2], ‘min_max’: [‘max_val’, ‘max_val’, ‘min_val’, ‘min_val’, ‘max_val’, ‘max_val’, ‘min_val’, ‘min_val’], ‘value’: [1, 20, 20, 10, 12, 3, -10, -5 ]}) id min_max value 0 1 max_val 1 1 2 max_val 20 2 1 min_val 20 3 […]