Articles of datos

¿Cómo crear todas las combinaciones de columnas sabias para múltiples variables en pandas?

Para un rango dado para n variables. He tomado n = 3 como ejemplo. A : [1,3] B: [5,10,12] C: [100,113] Tenga en cuenta que los valores en el rango anterior también pueden ser flotantes. ¿Cómo podemos crear un dataframe donde cada columna representa una combinación única de las variables de entrada? c1 c2 c3 […]

¿Cómo cargar un archivo con fecha y hora como un objeto de fecha y hora en Python?

Necesito cargar este archivo con la fecha en la primera columna y HH:MM en la segunda columna. ¿Cómo funciona con un numpy.genfromtxt() ? Tal vez pandas? Mi archivo se ve como: 2017-Feb-11 00:00 m 4.87809 1.86737 5.04236 0.27627 1.5995 2017-Feb-11 00:05 m 4.86722 1.86711 5.00023 0.27616 1.5965 2017-Feb-11 00:10 m 4.85641 1.86690 4.95810 0.27604 1.5941

convertir un dataframe pandas al diccionario

Tengo un dataframe de pandas como abajo: df=pd.DataFrame({‘a’:[‘red’,’yellow’,’blue’], ‘b’:[0,0,1], ‘c’:[0,1,0], ‘d’:[1,0,0]}) df que parece abcd 0 red 0 0 1 1 yellow 0 1 0 2 blue 1 0 0 Quiero convertirlo en un diccionario para obtener: red d yellow c blue b El conjunto de datos es bastante grande, así que evite cualquier método […]

Identificar el tipo de archivo sin extensión a partir de datos binarios.

Tengo algunos archivos sin extensión. Me gustaría asociarles extensiones. Para eso he escrito un progtwig en Python para leer los datos en el archivo. Mi duda es cómo puedo identificar su tipo sin la extensión sin utilizar herramientas de terceros. Tengo que identificar un archivo pdf, documento y texto solamente. Otro tipo de archivos no […]

Obtenga un índice de fila entero en el dataframe donde la columna coincide con un valor específico

Dado un dataframe de Pandas, donde una de las columnas se ve así: Date 2016-04-15 2016-04-14 2016-04-13 2016-04-12 2016-04-11 2016-04-08 ¿Cómo obtengo el índice de fila de un valor particular asumiendo que los valores son únicos? Por ejemplo, “2016-04-13” devolvería 2

Reemplazar nulos en DataFrame con Max en fila

¿Hay alguna manera (más eficiente que usar un bucle for) para reemplazar todos los nulos en el DataFrame de Pandas con el valor máximo en su fila respectiva.

columna perdida después de pandas groupby

Tengo una pandilla de datos df marco. Lo agrupo por 3 columnas, y cuento los resultados. Cuando hago esto, pierdo información, específicamente, la columna de name . Esta columna se asigna 1: 1 con la columna desk_id . ¿Hay alguna forma de incluir ambos en mi último dataframe? Aquí está el dataframe: shift_id shift_start_time shift_end_time […]

¿Cómo agregar correctamente las horas a un pandas.tseries.index.DatetimeIndex?

Tengo un df.index normal que me gustaría agregarle algunas horas. In [1]: test[1].index Out[2]: [2010-03-11, …, 2014-08-14] Length: 52, Freq: None, Timezone: None Así es como se ve el primer elemento: In [1]: test[1].index[0] Out[2]: Timestamp(‘2010-03-11 00:00:00′) Así que bash esto para agregar las horas: In [1]: test[1].index[0] + pd.tseries.timedeltas.to_timedelta(16, unit=’h’) Sin embargo me sale […]

Personalizando la función rolling_apply en los pandas de Python

Preparar Tengo un DataFrame con tres columnas: “Categoría” contiene Verdadero y Falso, y he hecho que df.groupby(‘Category’) según estos valores. “Tiempo” contiene marcas de tiempo (medidas en segundos) en las que se han registrado valores “Valor” contiene los valores en sí mismos. En cada instancia de tiempo, se registran dos valores: uno tiene la categoría […]

Python-PostgreSQL psycopg2 interface -> executemany

Actualmente estoy analizando un archivo de volcado de wikipedia; Estoy extrayendo un montón de datos de él usando python y persistiendo en un db PostgreSQL. Siempre estoy tratando de hacer que las cosas vayan más rápido porque este archivo es enorme (18 GB). Para interactuar con PostgreSQL, estoy usando psycopg2, pero este módulo parece imitar […]