Articles of marcos de datos de

Pandas: ¿Cuáles son los casos en que el recuento devuelto por DataFrame es un punto flotante?

Al describir mi dataframe de Pandas: obtengo el siguiente resultado: Mains_1_Power Mains_2_Power count 17.000000 17.000000 mean 57.063528 200.428607 std 67.605151 69.364919 min 11.015203 135.492259 25% 31.850638 161.546607 50% 35.871114 183.986024 75% 56.419915 210.772911 max 312.787603 446.077603 No entiendo los casos en que el conteo debería ser un flotador, ¿tenemos registros a medias? Si el recuento […]

Obtenga el nombre de la columna donde valor es algo en el dataframe pandas

Estoy tratando de encontrar, en cada marca de tiempo, el nombre de la columna en un dataframe para el cual el valor coincide con el de una serie temporal en la misma marca de tiempo. Aquí está mi dataframe: >>> df col5 col4 col3 col2 col1 1979-01-01 00:00:00 1181.220328 912.154923 648.848635 390.986156 138.185861 1979-01-01 06:00:00 […]

Pandas DataFrame: aplica la función a todas las columnas

Puedo usar .map(func) en cualquier columna en un df, como: df=DataFrame({‘a’:[1,2,3,4,5,6],’b’:[2,3,4,5,6,7]}) df[‘a’]=df[‘a’].map(lambda x: x > 1) También podría: df[‘a’],df[‘b’]=df[‘a’].map(lambda x: x > 1),df[‘b’].map(lambda x: x > 1) ¿Existe una forma más python de aplicar una función a todas las columnas o al cuadro completo (sin un bucle)?

¿La indexación booleana que puede producir una vista a un gran dataframe de pandas?

Tengo un gran dataframe del que quiero tomar porciones (de acuerdo con múltiples criterios booleanos), y luego modifico las entradas en esos cortes para cambiar el dataframe original, es decir, necesito una view del original. El problema es que la indexación elegante siempre devuelve una copy . Pensó en el método .ix , pero la […]

Manteniendo los últimos duplicados de N en pandas.

Dado un dataframe: >>> import pandas as pd >>> lol = [[‘a’, 1, 1], [‘b’, 1, 2], [‘c’, 1, 4], [‘c’, 2, 9], [‘b’, 2, 10], [‘x’, 2, 5], [‘d’, 2, 3], [‘e’, 3, 5], [‘d’, 2, 10], [‘a’, 3, 5]] >>> df = pd.DataFrame(lol) >>> df.rename(columns={0:’value’, 1:’key’, 2:’something’}) value key something 0 a 1 […]

Girar un DataFrame en Pandas para la salida a CSV

Esta es una pregunta simple para la cual las respuestas son sorprendentemente difíciles de encontrar en línea. Aquí está la situación: >>> A [(‘hey’, ‘you’, 4), (‘hey’, ‘not you’, 5), (‘not hey’, ‘you’, 2), (‘not hey’, ‘not you’, 6)] >>> A_p = pandas.DataFrame(A) >>> A_p 0 1 2 0 hey you 4 1 hey not […]

Nombre de la columna, que contiene el valor máximo.

Tengo un dataframe que se parece a: Alice Eleonora Mike Helen 2 7 8 6 11 5 9 4 6 15 12 3 5 3 7 8 No quiero crear la nueva columna que contiene para cada fila el nombre de la columna con el valor máximo para la fila dada Alice Eleonora Mike Helen […]

Los métodos Pandas DataFrame combine_first y update tienen un comportamiento extraño

Me estoy combine_first con un problema extraño (¿o fue pensado?) Donde combine_first o update están causando que los valores almacenados como bool se actualicen en float64 s si el argumento proporcionado no proporciona las columnas booleanas. Ejemplo de flujo de trabajo en ipython: In [144]: test = pd.DataFrame([[1,2,False,True],[4,5,True,False]], columns=[‘a’,’b’,’isBool’, ‘isBool2’]) In [145]: test Out[145]: ab […]

serializar pandas (python) dataframe a formato binario

Esta publicación incluye mi pregunta, pero en realidad trata sobre otra pregunta: la serialización de Pandas DataFrame. ¿Existe una rutina de serialización como numpy.savez para los marcos de datos de pandas? Veo que puedo usar hdf5 pero esperaba evitarlo, ya que hdf5 es una instalación adicional y no he podido hacer que h5py esté funcionando […]

Crea dos columnas agregadas por grupo por pandas

Soy nuevo en DataFrames y quiero agrupar varias columnas y luego sumr y mantener un recuento en la última columna. p.ej s = pd.DataFrame(np.matrix([[1, 2,3,4], [3, 4,7,6],[3,4,5,6],[1,2,3,7]]), columns=[‘a’, ‘b’, ‘c’, ‘d’]) abcd 0 1 2 3 4 1 3 4 7 6 2 3 4 5 6 3 1 2 3 7 Quiero agrupar en […]