Articles of agrupados

Obtener la identificación del grupo de nuevo en el dataframe de pandas

Para el dataframe In [2]: df = pd.DataFrame({‘Name’: [‘foo’, ‘bar’] * 3, …: ‘Rank’: np.random.randint(0,3,6), …: ‘Val’: np.random.rand(6)}) …: df Out[2]: Name Rank Val 0 foo 0 0.299397 1 bar 0 0.909228 2 foo 0 0.517700 3 bar 0 0.929863 4 foo 1 0.209324 5 bar 2 0.381515 Estoy interesado en agrupar por nombre y […]

Iterando sobre grupos en un dataframe

El problema que tengo es que quiero agrupar el dataframe y luego usar funciones para manipular los datos después de que se hayan agrupado. Por ejemplo, quiero agrupar los datos por Fecha y luego iterar a través de cada fila en los grupos de fechas para analizar una función. El problema es que Groupby parece […]

Pandas groupby diff

Así que mi dataframe se ve así: from pandas.compat import StringIO d = StringIO(”’ date,site,country,score 2018-01-01,google,us,100 2018-01-01,google,ch,50 2018-01-02,google,us,70 2018-01-03,google,us,60 2018-01-02,google,ch,10 2018-01-01,fb,us,50 2018-01-02,fb,us,55 2018-01-03,fb,us,100 2018-01-01,fb,es,100 2018-01-02,fb,gb,100 ”’) df = pd.read_csv(d, sep=”,”) Cada sitio tiene una puntuación diferente dependiendo del país. Estoy tratando de encontrar la diferencia de puntuación de 1/3/5 día para cada combinación de sitio […]

Grupo de pandas por sum más grande

Estoy tratando de usar las groupby , nlargest y sum en Pandas juntos, pero tengo problemas para hacer que funcione. State County Population Alabama a 100 Alabama b 50 Alabama c 40 Alabama d 5 Alabama e 1 … Wyoming a.51 180 Wyoming b.51 150 Wyoming c.51 56 Wyoming d.51 5 Quiero usar groupby para […]

Groupby basado en valor en la fila anterior

Tengo una columna con una lista de valores así: 100 200 300 500 600 650 1000 Quiero hacer un Groupby (o una construcción eficiente similar) para obtener lotes de filas donde el valor de cada fila esté dentro de 100 de la última fila. En ese caso, los lotes producidos a partir del ejemplo anterior […]

Cómo convertir datos mensuales a trimestrales en pandas.

Tengo datos mensuales. Quiero convertirlo a “períodos” de 3 meses donde q1 comienza en enero. Entonces, en el siguiente ejemplo, la agregación de los primeros 3 meses se traduciría en inicio de q2 (formato deseado: 1996q2). Y el valor de datos que resulta de reunir 3 valores mensuales es una media (promedio) de 3 columnas. […]

caer primera y última fila desde dentro de cada grupo

Esta es una pregunta de seguimiento para obtener el primer y último valor en un grupo ¿Cómo suelto las primeras y últimas filas dentro de cada grupo? Tengo esta df df = pd.DataFrame(np.arange(20).reshape(10, -1), [[‘a’, ‘a’, ‘a’, ‘a’, ‘b’, ‘b’, ‘b’, ‘c’, ‘c’, ‘d’], [‘a’, ‘a’, ‘c’, ‘d’, ‘e’, ‘f’, ‘g’, ‘h’, ‘i’, ‘j’]], [‘X’, […]

Resultados más extraños usando: groupby y nlargest () en pandas

Esta pregunta es una extensión de la siguiente publicación: seleccione la N más grande de una columna de cada grupo por grupo usando pandas Permite usar el mismo df y la solución propuesta en la respuesta seleccionada. Básicamente, estoy tratando de hacer 2 operaciones groupby y seleccionar el N más grande de cada grupo. Sin […]

pandas: soltar duplicados en groupby ‘fecha’

Tengo el siguiente dataframe: url=’https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df’ df=pd.read_csv(url) df.groupby(‘date’).cid.size() date 2005 7 2006 237 2007 3610 2008 1318 2009 2664 2010 997 2011 6390 2012 2904 2013 7875 2014 3979 df.groupby(‘date’).cid.nunique() date 2005 3 2006 10 2007 227 2008 52 2009 142 2010 57 2011 219 2012 99 2013 238 2014 146 Name: cid, dtype: int64 Me […]

Cuenta de pandas (distinta) equivalente

Estoy usando pandas como sustituto de db ya que tengo varias bases de datos (oracle, mssql, etc.) y no puedo hacer una secuencia de comandos a un equivalente de SQL. Tengo una tabla cargada en un DataFrame con algunas columnas: YEARMONTH, CLIENTCODE, SIZE, …. etc etc En SQL, contar la cantidad de clientes diferentes por […]