Articles of datos de

Python: pandas fusionan múltiples marcos de datos

Tengo diferentes marcos de datos y necesito combinarlos en función de la columna de fecha. Si solo tuviera dos marcos de datos, podría usar df1.merge(df2, on=’date’) , para hacerlo con tres marcos de datos, uso df1.merge(df2.merge(df3, on=’date’), on=’date’) , sin embargo, se vuelve realmente complejo e ilegible hacerlo con múltiples marcos de datos. Todos los […]

Filtro de dataframe después de groupby y nunique en pandas

df.groupby(“item”)[“variable”].nunique() y devuelve un conteo único de cada objeto de item. quiero filtrar para devolver solo el recuento de “variable”> 3 condicional en el elemento Groupby … ¿hay un método?

Procesamiento de datos con la adición de columnas dinámicamente en Python Pandas Dataframe

Tengo el siguiente problema. Digamos que este es mi CSV id f1 f2 f3 1 4 5 5 1 3 1 0 1 7 4 4 1 4 3 1 1 1 4 6 2 2 6 0 ………. Por lo tanto, tengo filas que se pueden agrupar por ID. Quiero crear un csv como […]

Cómo formar la tupla columna a partir de dos columnas en Pandas

Tengo un Pandas DataFrame y quiero combinar las columnas ‘lat’ y ‘long’ para formar una tupla. Int64Index: 205482 entries, 0 to 209018 Data columns: Month 205482 non-null values Reported by 205482 non-null values Falls within 205482 non-null values Easting 205482 non-null values Northing 205482 non-null values Location 205482 non-null values Crime type 205482 non-null values […]

Parcela pandas fechas en matplotlib

Tengo un archivo de datos de ancho fijo que contiene fechas, pero cuando bash trazar los datos, las fechas no se muestran correctamente en el eje x. Mis archivos se ven como 2014-07-10 11:49:14.377102 45 2014-07-10 11:50:14.449150 45 2014-07-10 11:51:14.521168 21 2014-07-10 11:52:14.574241 8 2014-07-10 11:53:14.646137 11 2014-07-10 11:54:14.717688 14 etc y uso pandas para […]

Alise una columna con el valor del tipo lista mientras duplica el valor de la otra columna en consecuencia en Pandas

Estimados expertos de los pandas del poder: Estoy tratando de implementar una función para aplanar una columna de un dataframe que tiene un elemento de tipo lista, quiero que para cada fila del dataframe donde la columna tenga un elemento de tipo lista, todas las columnas, pero la columna designada para aplanarse, sea duplicado, mientras […]

obtener los primeros y últimos valores en un groupby

Tengo un df df = pd.DataFrame(np.arange(20).reshape(10, -1), [[‘a’, ‘a’, ‘a’, ‘a’, ‘b’, ‘b’, ‘b’, ‘c’, ‘c’, ‘d’], [‘a’, ‘b’, ‘c’, ‘d’, ‘e’, ‘f’, ‘g’, ‘h’, ‘i’, ‘j’]], [‘X’, ‘Y’]) ¿Cómo obtengo las primeras y últimas filas, agrupadas por el primer nivel del índice? Lo intenté df.groupby(level=0).agg([‘first’, ‘last’]).stack() y consiguió XY a first 0 1 last […]

Eliminar el signo de dólar de todo el dataframe de Python Pandas

Estoy buscando eliminar los signos de dólar de todo un dataframe de los pandas de Python. Es similar a este post: Eliminar todo el personaje Sin embargo, estoy buscando eliminar el signo de dólar que no funciona. Creo que es porque regex ve el signo de dólar como el final de la cadena, pero no […]

No se puede establecer el índice de un dataframe de pandas – obteniendo “KeyError”

summaryDF un dataframe que se parece a esto ( summaryDF ): accuracy f1 precision recall 0 0.494 0.722433 0.722433 0.722433 0 0.290 0.826087 0.826087 0.826087 0 0.274 0.629630 0.629630 0.629630 0 0.278 0.628571 0.628571 0.628571 0 0.288 0.718750 0.718750 0.718750 0 0.740 0.740000 0.740000 0.740000 0 0.698 0.765133 0.765133 0.765133 0 0.582 0.778547 0.778547 0.778547 […]

¿Cómo combinar dos matrices de números grandes si la división no resuelve el error de memoria?

Tengo dos arreglos numpy container1 y container2 donde container1.shape = (900,4000) y container2.shape = (5000,4000) . vstack usando los resultados de vstack en un MemoryError . Después de buscar en las antiguas preguntas publicadas aquí, traté de fusionarlas utilizando el slicing esta manera: mergedContainer = numpy.vstack((container1, container2[:1000])) mergedContainer = numpy.vstack((mergedContainer, container[1000:2500])) mergedContainer = numpy.vstack((mergedContainer, container[2500:3000])) […]