Articles of group by

Pandas groupby (), agg (): ¿cómo devolver resultados sin el índice múltiple?

Tengo un dataframe: pe_odds[ [ ‘EVENT_ID’, ‘SELECTION_ID’, ‘ODDS’ ] ] Out[67]: EVENT_ID SELECTION_ID ODDS 0 100429300 5297529 18.00 1 100429300 5297529 20.00 2 100429300 5297529 21.00 3 100429300 5297529 22.00 4 100429300 5297529 23.00 5 100429300 5297529 24.00 6 100429300 5297529 25.00 Cuando uso groupby y agg, obtengo resultados con un índice múltiple: pe_odds.groupby( [ […]

Python Pandas Eligiendo Muestra Aleatoria De Grupos De Groupby

¿Cuál es la mejor manera de obtener una muestra aleatoria de los elementos de un groupby ? Como lo entiendo, un groupby es simplemente un iterable sobre grupos. La forma estándar en que lo haría para un iterable, si quisiera seleccionar N = 200 elementos es: rand = random.sample(data, N) Si intenta hacer lo anterior […]

Las pandas se interpolan dentro de un grupo

Tengo un dataframe con la siguiente información: filename val1 val2 t 1 file1.csv 5 10 2 file1.csv NaN NaN 3 file1.csv 15 20 6 file2.csv NaN NaN 7 file2.csv 10 20 8 file2.csv 12 15 Me gustaría interpolar los valores en el dataframe según los índices, pero solo dentro de cada grupo de archivos . […]

Pandas groupby con categorías con nan redundante.

Estoy teniendo problemas al usar pandas groupby con datos categóricos. En teoría, debería ser súper eficiente: está agrupando e indexando a través de enteros en lugar de cadenas. Pero insiste en que, al agrupar por categorías múltiples, se debe tener en cuenta cada combinación de categorías . A veces utilizo categorías incluso cuando hay una […]

Manera más rápida de agrupar por hora del día en pandas.

Tengo una serie de tiempo de varios días de datos de 1 minuto, y me gustaría promediar todos los días según la hora del día. Esto es muy lento: from datetime import datetime from pandas import date_range, Series time_ind = date_range(datetime(2013, 1, 1), datetime(2013, 1, 10), freq=’1min’) all_data = Series(randn(len(time_ind)), time_ind) time_mean = all_data.groupby(lambda x: […]

Python Pandas: cómo agregar una columna totalmente nueva a un dataframe dentro de una operación groupby / transform

Quiero marcar algunos cuantiles en mis datos, y para cada fila del DataFrame, me gustaría que la entrada en una nueva columna llamada, por ejemplo, “xtile” mantenga este valor. Por ejemplo, supongamos que creo un dataframe como este: import pandas, numpy as np dfrm = pandas.DataFrame({‘A’:np.random.rand(100), ‘B’:(50+np.random.randn(100)), ‘C’:np.random.randint(low=0, high=3, size=(100,))}) Y digamos que escribo mi […]

Grupo django por hora

Tengo el siguiente modelo en Django. class StoreVideoEventSummary(models.Model): Customer = models.ForeignKey(GlobalCustomerDirectory, null=True, db_column=’CustomerID’, blank=True, db_index=True) Store = models.ForeignKey(Store, null=True, db_column=’StoreID’, blank=True, related_name=”VideoEventSummary”) Timestamp = models.DateTimeField(null=True, blank=True, db_index=True) PeopleCount = models.IntegerField(null=True, blank=True) Me gustaría saber la cantidad de personas que entran a la tienda cada hora. Para lograr esto, estoy tratando de agrupar las filas por […]

¿Por qué el primero y el último en un grupo no me da el primero y el último?

Estoy publicando esto porque el tema acaba de aparecer en otra pregunta / respuesta y el comportamiento no está muy bien documentado. Considere el df dataframe df = pd.DataFrame(dict( A=list(‘xxxyyy’), B=[np.nan, 1, 2, 3, 4, np.nan] )) AB 0 x NaN 1 x 1.0 2 x 2.0 3 y 3.0 4 y 4.0 5 y […]

¿Cómo crear pandas grouppor plot con subplots?

Tengo un dataframe como este: value identifier 2007-01-01 0.781611 55 2007-01-01 0.766152 56 2007-01-01 0.766152 57 2007-02-01 0.705615 55 2007-02-01 0.032134 56 2007-02-01 0.032134 57 2008-01-01 0.026512 55 2008-01-01 0.993124 56 2008-01-01 0.993124 57 2008-02-01 0.226420 55 2008-02-01 0.033860 56 2008-02-01 0.033860 57 Así que hago un groupby por identificador: df.groupby(‘identifier’) Y ahora quiero generar […]

pandas groupby cuenta cadena ocurrencia sobre columna

Quiero contar la aparición de una cadena en una columna de dataframe pandas agrupada. Supongamos que tengo el siguiente Dataframe: catA catB scores AX 6-4 RET AX 6-4 6-4 AY 6-3 RET BZ 6-0 RET BZ 6-1 RET Primero, quiero agrupar por catB y catB . Y para cada uno de estos grupos quiero contar […]