Articles of group by

Comportamiento extraño con groupby en columnas categóricas ordenadas

MCVE df = pd.DataFrame({ ‘Cat’: [‘SF’, ‘W’, ‘F’, ‘R64’, ‘SF’, ‘F’], ‘ID’: [1, 1, 1, 2, 2, 2] }) df.Cat = pd.Categorical( df.Cat, categories=[‘R64’, ‘SF’, ‘F’, ‘W’], ordered=True) Como puede ver, he definido una columna categórica ordenada en Cat . Para verificar, consultar; 0 SF 1 W 2 F 3 R64 4 SF 5 F […]

Dividir un dataframe en múltiples marcos de datos de 5 segundos y obtener el recuento en Python

Tengo un conjunto de datos relativamente grande que quiero dividir en múltiples marcos de datos en Python basado en una columna que contiene un objeto de fecha y hora. Los valores en la columna (por los que quiero dividir el dataframe) se dan en el siguiente formato: 2015-11-01 00:00:05 Puedes asumir que el dataframe se […]

Python numpy divide un archivo csv por los valores de una columna de cadena

Tengo 5000 filas de datos que se parecen a las siguientes en un archivo csv, me gustaría agrupar por la última columna 6 (es decir, A, B) usando matrices numpy, ya que estaría trazando los datos en cada grupo después. Title Date, Time, Value1, Value2, Value3, Value4, Value5 ,, Unit1, Unit2, Unit3,, 2012-04-02,00:00, 85.5333333333333, 4.87666666666667, […]

pandas: groupby y pesos variables

Tengo un conjunto de datos con ponderaciones para cada observación y quiero preparar resúmenes ponderados utilizando groupby pero estoy oxidado en cuanto a la mejor manera de hacer esto. Creo que implica una función de agregación personalizada. Mi problema es cómo tratar adecuadamente los datos no de elementos, pero los datos de grupo. Quizás significa […]

Python: Obtener elemento más frecuente en la lista

Tengo una lista de tuplas, y quiero obtener la tupla más frecuente, PERO si hay “ganadores conjuntos”, debería elegir entre ellas al azar. tups = [ (1,2), (3,4), (5,6), (1,2), (3,4) ] así que quiero algo que devuelva cualquiera de los dos (1,2) o (3,4) al azar para la lista anterior

Pandas: sum columnas múltiples y obtén resultados en columnas múltiples

Tengo un “sample.txt” como este. idx ABCD cat J 1 2 3 1 x K 4 5 6 2 x L 7 8 9 3 y M 1 2 3 4 y N 4 5 6 5 z O 7 8 9 6 z Con este conjunto de datos, quiero obtener la sum en la […]

Personalizando la función rolling_apply en los pandas de Python

Preparar Tengo un DataFrame con tres columnas: “Categoría” contiene Verdadero y Falso, y he hecho que df.groupby(‘Category’) según estos valores. “Tiempo” contiene marcas de tiempo (medidas en segundos) en las que se han registrado valores “Valor” contiene los valores en sí mismos. En cada instancia de tiempo, se registran dos valores: uno tiene la categoría […]

¿Cómo obtener filas en el dataframe de pandas, con valores máximos en una columna y mantener el índice original?

Tengo un dataframe de pandas. En la primera columna puede tener el mismo valor varias veces (en otras palabras, los valores de la primera columna no son únicos). Cada vez que tengo varias filas que contienen el mismo valor en la primera columna, me gustaría dejar solo las que tienen un valor máximo en la […]

Cómo hacer esta consulta GROUP BY en el ORM de Django con anotaciones y agregados

Realmente no he asimilado la forma de traducir GROUP BY y HAVING al QuerySet.annotate y QuerySet.aggregate . Estoy tratando de traducir esta consulta SQL al lenguaje ORM SELECT EXTRACT(year FROM pub_date) as year, EXTRACT(month from pub_date) as month, COUNT(*) as article_count FROM articles_article GROUP BY year,month; que produce esto: [(2008.0, 10.0, 1L), # year, month, […]

Pandas `agg` a la lista,” AttributeError / ValueError: la función no se reduce “

A menudo, cuando realizamos operaciones groupby usando pandas, es posible que deseamos aplicar varias funciones en varias series. groupby.agg parece la forma natural de realizar estas agrupaciones y cálculos. Sin embargo, parece existir una discrepancia entre cómo se implementan groupby.agg y groupby.apply , porque no puedo agrupar a una lista usando agg . Tuple y […]