Articles of agrupados

¿Cómo contar registros únicos por dos columnas en pandas?

Tengo dataframe en pandas: In [10]: df Out[10]: col_a col_b col_c col_d 0 France Paris 3 4 1 UK Londo 4 5 2 US Chicago 5 6 3 UK Bristol 3 3 4 US Paris 8 9 5 US London 44 4 6 US Chicago 12 4 Necesito contar ciudades únicas. Puedo contar estados únicos […]

rebanar df original después de groupby (). nlargest (x) operación

Dados los problemas con groupby() y nlargest() como se describe aquí y aquí . Estoy tratando de solucionar los problemas. Nota: por simplicidad utilicé nlargest(1) , sin embargo, podría haber cualquier cantidad de selecciones. {‘city1’: {0: ‘Chicago’, 1: ‘Chicago’, 2: ‘Chicago’, 3: ‘Chicago’, 4: ‘Miami’, 5: ‘Houston’, 6: ‘Austin’}, ‘city2’: {0: ‘Toronto’, 1: ‘Detroit’, 2: […]

Pandas: dividir el dataframe en múltiples marcos de datos según las fechas?

Tengo un dataframe con varias columnas junto con una columna de fecha. El formato de fecha es 31/12/15 y lo he establecido como un objeto de fecha y hora. Establecí la columna de fecha y hora como el índice y quiero realizar un cálculo de regresión para cada mes del dataframe. Creo que la metodología […]

Suma el conjunto de valores del dataframe de pandas dentro de cierto marco de tiempo

Tengo una pregunta bastante complicada. Necesito seleccionar filas de un dataframe dentro de un determinado conjunto de fechas de inicio y finalización, y luego sumr esos valores y colocarlos en un nuevo dataframe. Así que empiezo con el dataframe, df : import random dates = pd.date_range(‘20150101 020000’,periods=1000) df = pd.DataFrame({‘_id’: random.choice(range(0, 1000)), ‘time_stamp’: dates, ‘value’: […]

¿Cómo hacer referencia a un grupo por índice cuando se usa apply, transform, agg – Python Pandas?

Para ser concretos, digamos que tenemos dos DataFrames: df1: date A 0 12/1/14 3 1 12/1/14 1 2 12/3/14 2 3 12/3/14 3 4 12/3/14 4 5 12/6/14 5 df2: B 12/1/14 10 12/2/14 20 12/3/14 10 12/4/14 30 12/5/14 10 12/6/14 20 Ahora quiero agrupar por fecha en df1, y tomar una sum del […]

pandas dividen el valor de la fila por la sum agregada con una condición establecida por otra celda

Hola Con la esperanza de obtener ayuda, tengo dos columnas Dataframe df as; Source ID 1 2 2 3 1 2 1 2 1 3 3 1 Mi intención es agrupar la Fuente y dividir la celda de ID por el total en función de la Fuente agrupada y adjuntar esto al dataframe original para […]

pandas groupby concatenar cadenas en múltiples columnas

Tengo este dataframe pandas: df = DataFrame({‘id’:[‘a’,’b’,’b’,’b’,’c’,’c’], ‘category’:[‘z’,’z’,’x’,’y’,’y’,’y’], ‘category2’:[‘1′,’2′,’2′,’2′,’1′,’2’]}) que se parece a category category2 id 0 z 1 a 1 z 2 b 2 x 2 b 3 y 2 b 4 y 1 c 5 y 2 c Lo que me gustaría hacer es agrupar por id y devolver las otras dos columnas […]

Crea dos columnas agregadas por grupo por pandas

Soy nuevo en DataFrames y quiero agrupar varias columnas y luego sumr y mantener un recuento en la última columna. p.ej s = pd.DataFrame(np.matrix([[1, 2,3,4], [3, 4,7,6],[3,4,5,6],[1,2,3,7]]), columns=[‘a’, ‘b’, ‘c’, ‘d’]) abcd 0 1 2 3 4 1 3 4 7 6 2 3 4 5 6 3 1 2 3 7 Quiero agrupar en […]

¿Cómo usar groupby para aplicar múltiples funciones a múltiples columnas en Pandas?

Tengo un df normal A = pd.DataFrame([[1, 5, 2], [2, 4, 4], [3, 3, 1], [4, 2, 2], [5, 1, 4]], columns=[‘A’, ‘B’, ‘C’], index=[1, 2, 3, 4, 5]) Siguiendo esta receta , obtuve los resultados que quería. In [62]: A.groupby((A[‘A’] > 2)).apply(lambda x: pd.Series(dict( up_B=(xB >= 0).sum(), down_B=(xB = 0).sum(), down_C=(xC < 0).sum(), mean_C=(xC).mean(), […]

Python pandas groupby key error en pandas.hashtable.PyObjectHashTable.get_item

Estoy haciendo lo que parece ser un grupo simple en Pandas. La columna es una columna de cadena sin cadenas de NaN o cadenas extrañas. Sin embargo, sigo recibiendo el error de abajo. ¿Alguien sabe por qué sucede esto? Siento que puede tener algo que ver con mis datos, pero todo parece estar bien … […]