Articles of datos de

Filtrado basado en los datos de “filas” después de crear una tabla dinámica en pandas python

Tengo un conjunto de datos que obtengo de una base de datos SQL y los leo en un dataframe de pandas. El df resultante es de aproximadamente 250M filas y crece cada día. Por lo tanto, me gustaría girar la tabla para darme una tabla mucho más pequeña para trabajar (unos pocos miles de filas). […]

¿Hay algún límite para el almacén de datos local que ejecuta Google App Engine Python?

Tengo un modelo simple: class MyEntry(db.Model): keyName = db.StringProperty() valuesList = db.StringListProperty() y quiero rellenar el almacén de datos con aproximadamente 7000 instancias de esta entidad desde un archivo. (Tengo una función que lee del archivo, crea las entidades y las coloca en la base de datos) Estoy usando la consola interactiva de la consola […]

Convertir archivos CSV a TF Records

Llevo más de 5 horas ejecutando mi script. Tengo 258 archivos CSV que quiero convertir a TF Records. Escribí el siguiente script y, como he dicho, ya lo he estado ejecutando durante más de 5 horas: import argparse import os import sys import standardize_data import tensorflow as tf FLAGS = None PATH = ‘/home/darth/GitHub Projects/gru_svm/dataset/train’ […]

Mantener las columnas después de un grupo en un dataframe vacío

El dataframe es un df vacío después de la consulta. Cuando esté agrupado, active la advertencia de tiempo de ejecución, luego obtenga otro dataframe vacío sin columnas. ¿Cómo mantener las columnas? df = pd.DataFrame(columns=[“PlatformCategory”,”Platform”,”ResClassName”,”Amount”]) print df resultado: Empty DataFrame Columns: [PlatformCategory, Platform, ResClassName, Amount] Index: [] entonces groupby: df = df.groupby([“PlatformCategory”,”Platform”,”ResClassName”]).sum() df = df.reset_index(drop=False,inplace=True) print […]

Asignar nuevos valores a la división desde MultiIndex DataFrame

Me gustaría modificar algunos valores de una columna en mi DataFrame. En este momento tengo una vista desde la selección a través del índice múltiple de mi df original (y la modificación cambia df ). Aquí hay un ejemplo: In [1]: arrays = [np.array([‘bar’, ‘bar’, ‘baz’, ‘qux’, ‘qux’, ‘bar’]), np.array([‘one’, ‘two’, ‘one’, ‘one’, ‘two’, ‘one’]), […]

¿Hay un módulo de Python para abrir archivos SPSS?

¿Hay un módulo para que Python abra archivos de IBM SPSS (es decir, .sav)? Sería genial si hubiera algo actualizado que no requiera archivos / bibliotecas dll adicionales.

Almacenamiento básico de datos con Python

Necesito almacenar datos básicos de los clientes y los automóviles que compraron y el cronogtwig de pago de estos automóviles. Estos datos provienen de GUI, escrito en Python. No tengo la experiencia suficiente para usar un sistema de base de datos como sql, por lo que quiero almacenar mis datos en un archivo como texto […]

¿Cómo haces un bucle For cuando no necesitas un índice en Python?

si necesito un bucle for en python for i in range(1,42): print “spam” pero no use la “i” para cualquier cosa que el pylint se queja sobre la variable no utilizada. ¿Cómo debería manejar esto? Sé que puedes hacerlo: for dummy_index in range(1,42): print “spam” Pero hacer esto me parece bastante extraño, ¿hay alguna manera […]

Alternativas a la incómoda indexación de marcos de datos de Pandas / Python: df_REPEATED ]> 0?

En Pandas / Python, tengo que escribir el nombre del dataframe dos veces cuando condiciono su propia variable: df_REPEATED[df_REPEATED[‘var’]>0] Esto sucede tantas veces que parece irrazonable. 90-99% de los usuarios estarían contentos el 95% del tiempo con algo como: df_REPEATED[[‘var’]>0] Esta syntax también es necesaria usando .loc[] . ¿Hay alguna alternativa o atajo para escribir […]

PySpark: org.apache.spark.sql.AnalysisException: El nombre del atributo … contiene caracteres no válidos entre “,; {} () \ n \ t =”. Por favor use un alias para renombrarlo

Estoy tratando de cargar datos de parquet en PySpark , donde una columna tiene un espacio en el nombre: df = spark.read.parquet(‘my_parquet_dump’) df.select(df[‘Foo Bar’].alias(‘foobar’)) A pesar de que tengo un alias en la columna, todavía recibo este error y la propagación del error desde el lado de JVM de PySpark . He adjuntado el rastro […]