Tengo un conjunto de datos que obtengo de una base de datos SQL y los leo en un dataframe de pandas. El df resultante es de aproximadamente 250M filas y crece cada día. Por lo tanto, me gustaría girar la tabla para darme una tabla mucho más pequeña para trabajar (unos pocos miles de filas). […]
Tengo un modelo simple: class MyEntry(db.Model): keyName = db.StringProperty() valuesList = db.StringListProperty() y quiero rellenar el almacén de datos con aproximadamente 7000 instancias de esta entidad desde un archivo. (Tengo una función que lee del archivo, crea las entidades y las coloca en la base de datos) Estoy usando la consola interactiva de la consola […]
Llevo más de 5 horas ejecutando mi script. Tengo 258 archivos CSV que quiero convertir a TF Records. Escribí el siguiente script y, como he dicho, ya lo he estado ejecutando durante más de 5 horas: import argparse import os import sys import standardize_data import tensorflow as tf FLAGS = None PATH = ‘/home/darth/GitHub Projects/gru_svm/dataset/train’ […]
El dataframe es un df vacío después de la consulta. Cuando esté agrupado, active la advertencia de tiempo de ejecución, luego obtenga otro dataframe vacío sin columnas. ¿Cómo mantener las columnas? df = pd.DataFrame(columns=[“PlatformCategory”,”Platform”,”ResClassName”,”Amount”]) print df resultado: Empty DataFrame Columns: [PlatformCategory, Platform, ResClassName, Amount] Index: [] entonces groupby: df = df.groupby([“PlatformCategory”,”Platform”,”ResClassName”]).sum() df = df.reset_index(drop=False,inplace=True) print […]
Me gustaría modificar algunos valores de una columna en mi DataFrame. En este momento tengo una vista desde la selección a través del índice múltiple de mi df original (y la modificación cambia df ). Aquí hay un ejemplo: In [1]: arrays = [np.array([‘bar’, ‘bar’, ‘baz’, ‘qux’, ‘qux’, ‘bar’]), np.array([‘one’, ‘two’, ‘one’, ‘one’, ‘two’, ‘one’]), […]
¿Hay un módulo para que Python abra archivos de IBM SPSS (es decir, .sav)? Sería genial si hubiera algo actualizado que no requiera archivos / bibliotecas dll adicionales.
Necesito almacenar datos básicos de los clientes y los automóviles que compraron y el cronogtwig de pago de estos automóviles. Estos datos provienen de GUI, escrito en Python. No tengo la experiencia suficiente para usar un sistema de base de datos como sql, por lo que quiero almacenar mis datos en un archivo como texto […]
si necesito un bucle for en python for i in range(1,42): print “spam” pero no use la “i” para cualquier cosa que el pylint se queja sobre la variable no utilizada. ¿Cómo debería manejar esto? Sé que puedes hacerlo: for dummy_index in range(1,42): print “spam” Pero hacer esto me parece bastante extraño, ¿hay alguna manera […]
En Pandas / Python, tengo que escribir el nombre del dataframe dos veces cuando condiciono su propia variable: df_REPEATED[df_REPEATED[‘var’]>0] Esto sucede tantas veces que parece irrazonable. 90-99% de los usuarios estarían contentos el 95% del tiempo con algo como: df_REPEATED[[‘var’]>0] Esta syntax también es necesaria usando .loc[] . ¿Hay alguna alternativa o atajo para escribir […]
Estoy tratando de cargar datos de parquet en PySpark , donde una columna tiene un espacio en el nombre: df = spark.read.parquet(‘my_parquet_dump’) df.select(df[‘Foo Bar’].alias(‘foobar’)) A pesar de que tengo un alias en la columna, todavía recibo este error y la propagación del error desde el lado de JVM de PySpark . He adjuntado el rastro […]