Articles of dataframe

Añadir columna extra como la diferencia de tiempo acumulativa

¿Cómo agregar una columna adicional que sea el valor acumulativo de las diferencias de tiempo para cada curso? Por ejemplo, la tabla inicial es: id_A course weight ts_A value id1 cotton 3.5 2017-04-27 01:35:30 150.000000 id1 cotton 3.5 2017-04-27 01:36:00 416.666667 id1 cotton 3.5 2017-04-27 01:36:30 700.000000 id1 cotton 3.5 2017-04-27 01:37:00 950.000000 id2 cotton […]

Función para la operación de DataFrame usando variables en la lista con Python

Tengo una lista list = [‘OUT’, ‘IN’] donde todos los elementos de la lista es un nombre de variable en el dataframe con sufijos _3M, _6M, _9M, 15M adjuntos. Lista: list = [‘OUT’, ‘IN’] Input_df: ID OUT_3M OUT_6M OUT_9M OUT_15M IN_3M IN_6M IN_9M IN_15M A 2 3 4 6 2 3 4 6 B 3 […]

Rellene el dataframe de pd en la hoja de Excel existente (usando openpyxl v2.3.2)

Quiero completar algunos marcos de datos de pandas en un archivo de Excel existente . Seguí las instrucciones en: ¿Cómo escribir en un archivo de Excel existente sin sobrescribir los datos (usando pandas)? utilizando: from openpyxl import load_workbook import pandas as pd import numpy as np book=load_workbook(“excel_proc.xlsx”) writer=pd.ExcelWriter(“excel_proc.xlsx”, engine=”openpyxl”) writer.book = book writer.sheets = dict((ws.title, […]

Agregue un valor a una columna de marcos de datos DASK importados usando csv_read

Supongamos que se importan cinco archivos a la DASK utilizando csv_read . Para ello, utilizo este código: import dask.dataframe as dd data = dd.read_csv(final_file_list_msg, header = None) Cada archivo tiene diez columnas. Quiero agregar 1 a la primera columna del archivo 1, 2 a la primera columna del archivo 2, 3 a la primera columna […]

Error de caracteres ilegales de la ttwig de datos de Python en el error de deencoding del códec ‘ascii’

Estoy intentando escribir un dataframe de pandas para excel. Inicialmente, recibí openpyxl.utils.exceptions.IllegalCharacterError que resolví con: def export_file(clients): clients = clients.applymap(lambda x: x.encode(‘unicode_escape’). decode(‘utf-8’) if isinstance(x, str) else x) clients.to_excel(‘all_clients.xlsx’) return() Que luego resultó en: UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe2 in position 17: ordinal not in range(128) Sin embargo, si resuelvo el error de […]

Escribe rápido fotogtwigs de pandas para postgres

Me pregunto cuál es la forma más rápida de escribir datos de pandas DataFrame en la tabla en la base de datos de postges. 1) He probado pandas.to_sql , pero por alguna razón, se necesita una entidad para copiar datos, 2) además he intentado seguir: import io f = io.StringIO() pd.DataFrame({‘a’:[1,2], ‘b’:[3,4]}).to_csv(f) cursor = conn.cursor() […]

Guarde la columna pandas (cadena / objeto) como VARCHAR en Oracle DB en lugar de CLOB (comportamiento predeterminado)

Estoy tratando de transferir un dataframe a la base de datos de Oracle, pero la transferencia está tomando demasiado tiempo, porque el tipo de datos de la variable se muestra como clob en Oracle. Sin embargo, creo que si convierto el tipo de datos de clob a cadena de 9 dígitos con 0 rellenados , […]

Convertir la lista en el dataframe de panda en columnas

city state neighborhoods categories Dravosburg PA [asas,dfd] [‘Nightlife’] Dravosburg PA [adad] [‘Auto_Repair’,’Automotive’] Tengo el dataframe anterior. Quiero convertir cada elemento de una lista en columna para, por ejemplo: city state asas dfd adad Nightlife Auto_Repair Automotive Dravosburg PA 1 1 0 1 1 0 Estoy usando el siguiente código para hacer esto: def list2columns(df): “”” […]

Dividir un diccionario en un dataframe Pyspark en columnas individuales

Tengo un dataframe (en Pyspark) que tiene uno de los valores de la fila como un diccionario: df.show() Y se parece a +—-+—+—————————–+ |name|age|info | +—-+—+—————————–+ |rob |26 |{color: red, car: volkswagen}| |evan|25 |{color: blue, car: mazda} | +—-+—+—————————–+ Basado en los comentarios para dar más: df.printSchema() Los tipos son cuerdas root |– name: string […]

Agregue datos al archivo HDF5 con Pandas, Python

Tengo grandes pandas DataFrames con datos financieros. No tengo ningún problema en agregar y concatenar columnas y DataFrames adicionales a mi archivo .h5. Los datos financieros se actualizan a cada minuto, debo adjuntar una fila de datos a todas mis tablas existentes dentro de mi archivo .h5 cada minuto. Esto es lo que he intentado […]