Articles of group by

Python – subtotales de pandas en groupby

Aquí hay una muestra de los datos que estoy usando: SCENARIO DATE POD AREA IDOC STATUS TYPE AAA 02.06.2015 JKJKJKJKJKK 4210 713375 51 1 AAA 02.06.2015 JWERWERE 4210 713375 51 1 AAA 02.06.2015 JAFDFDFDFD 4210 713375 51 9 BBB 02.06.2015 AAAAAAAA 5400 713504 51 43 CCC 05.06.2015 BBBBBBBBBB 4100 756443 51 187 AAA 05.06.2015 EEEEEEEE […]

Marco de datos de pandas para contar la matriz.

Esto debe ser obvio, pero no pude encontrar una solución fácil. Tengo pandas DataFrame como esto: actual | predicted —— + ——— Apple | Apple Apple | Apple Apple | Banana Banana | Orange Orange | Apple Quiero esto: | Apple | Banana | Orange —— + ——- + ——- + ——- Apple | 2 […]

Python – Eliminar duplicados según el valor máximo de una columna

No soy realmente bueno con los pandas, y creo que los pandas deberían resolver mi problema: tengo un archivo de texto que contiene datos ( id1 ; id2 ; value3 ; value3 ; value3 ) 1;2;30;40;20.3; 1;2;30;42;26.2; 3;5;12;55;10.7; 3;5;12;23;8.7; 3;5;12;33;11.2; 24;12;1;553;1.1; 24;12;1;23;1.9; Como resultado, quiero mantener las líneas que tienen iguales id1 , id2 , […]

¿Cómo usar pandas para agrupar los resultados de la tabla dinámica por semana?

A continuación se muestra un fragmento de mi salida de tabla dinámica en formato .csv después de usar la función pandas pivot_table: Sub-Product 11/1/12 11/2/12 11/3/12 11/4/12 11/5/12 11/6/12 GP Acquisitions 164 168 54 72 203 167 GP Applications 190 207 65 91 227 200 GPF Acquisitions 1124 1142 992 1053 1467 1198 GPF Applications […]

Pandas groupby (), agg (): ¿cómo devolver resultados sin el índice múltiple?

Tengo un dataframe: pe_odds[ [ ‘EVENT_ID’, ‘SELECTION_ID’, ‘ODDS’ ] ] Out[67]: EVENT_ID SELECTION_ID ODDS 0 100429300 5297529 18.00 1 100429300 5297529 20.00 2 100429300 5297529 21.00 3 100429300 5297529 22.00 4 100429300 5297529 23.00 5 100429300 5297529 24.00 6 100429300 5297529 25.00 Cuando uso groupby y agg, obtengo resultados con un índice múltiple: pe_odds.groupby( [ […]

Python Pandas Eligiendo Muestra Aleatoria De Grupos De Groupby

¿Cuál es la mejor manera de obtener una muestra aleatoria de los elementos de un groupby ? Como lo entiendo, un groupby es simplemente un iterable sobre grupos. La forma estándar en que lo haría para un iterable, si quisiera seleccionar N = 200 elementos es: rand = random.sample(data, N) Si intenta hacer lo anterior […]

Las pandas se interpolan dentro de un grupo

Tengo un dataframe con la siguiente información: filename val1 val2 t 1 file1.csv 5 10 2 file1.csv NaN NaN 3 file1.csv 15 20 6 file2.csv NaN NaN 7 file2.csv 10 20 8 file2.csv 12 15 Me gustaría interpolar los valores en el dataframe según los índices, pero solo dentro de cada grupo de archivos . […]

Pandas groupby con categorías con nan redundante.

Estoy teniendo problemas al usar pandas groupby con datos categóricos. En teoría, debería ser súper eficiente: está agrupando e indexando a través de enteros en lugar de cadenas. Pero insiste en que, al agrupar por categorías múltiples, se debe tener en cuenta cada combinación de categorías . A veces utilizo categorías incluso cuando hay una […]

Manera más rápida de agrupar por hora del día en pandas.

Tengo una serie de tiempo de varios días de datos de 1 minuto, y me gustaría promediar todos los días según la hora del día. Esto es muy lento: from datetime import datetime from pandas import date_range, Series time_ind = date_range(datetime(2013, 1, 1), datetime(2013, 1, 10), freq=’1min’) all_data = Series(randn(len(time_ind)), time_ind) time_mean = all_data.groupby(lambda x: […]

Python Pandas: cómo agregar una columna totalmente nueva a un dataframe dentro de una operación groupby / transform

Quiero marcar algunos cuantiles en mis datos, y para cada fila del DataFrame, me gustaría que la entrada en una nueva columna llamada, por ejemplo, “xtile” mantenga este valor. Por ejemplo, supongamos que creo un dataframe como este: import pandas, numpy as np dfrm = pandas.DataFrame({‘A’:np.random.rand(100), ‘B’:(50+np.random.randn(100)), ‘C’:np.random.randint(low=0, high=3, size=(100,))}) Y digamos que escribo mi […]