pandas: soltar duplicados en groupby ‘fecha’

Tengo el siguiente dataframe:

url='https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df' df=pd.read_csv(url) df.groupby('date').cid.size() date 2005 7 2006 237 2007 3610 2008 1318 2009 2664 2010 997 2011 6390 2012 2904 2013 7875 2014 3979 df.groupby('date').cid.nunique() date 2005 3 2006 10 2007 227 2008 52 2009 142 2010 57 2011 219 2012 99 2013 238 2014 146 Name: cid, dtype: int64 

Me gustaría eliminar los valores de cid duplicados de modo que la salida de df.groupby('date').cid.size() coincida con la salida de df.groupby('date').cid.nunique() . He visto esta publicación, pero no parece tener una solución sólida al problema.

He probado lo siguiente:

 df.groupby([df['date']]).drop_duplicates(cols='cid') 

Pero me sale este error:

 AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method 

y esto:

 df.groupby(('date').drop_duplicates('cid')) 

Pero me sale este error:

 AttributeError: 'str' object has no attribute 'drop_duplicates' 

¿Alguien tiene una idea sobre esto?

No es necesario que groupby elimine duplicados basados ​​en unas pocas columnas, puede especificar un subconjunto en su lugar:

 df2 = df.drop_duplicates(["date", "cid"]) df2.groupby('date').cid.size() Out[99]: date 2005 3 2006 10 2007 227 2008 52 2009 142 2010 57 2011 219 2012 99 2013 238 2014 146 dtype: int64