Articles of datos de

Aplicar una función de pares en una serie de pandas.

Tengo una serie de pandas cuyos elementos constituyen frozensets: data = {0: frozenset({‘apple’, ‘banana’}), 1: frozenset({‘apple’, ‘orange’}), 2: frozenset({‘banana’}), 3: frozenset({‘kumquat’, ‘orange’}), 4: frozenset({‘orange’}), 5: frozenset({‘orange’, ‘pear’}), 6: frozenset({‘orange’, ‘pear’}), 7: frozenset({‘apple’, ‘banana’, ‘pear’}), 8: frozenset({‘banana’, ‘persimmon’}), 9: frozenset({‘apple’}), 10: frozenset({‘banana’}), 11: frozenset({‘apple’})} tokens = pd.Series(data); tokens 0 (apple, banana) 1 (orange, apple) 2 (banana) […]

Trazando la misma columna de varios DataFrames en un Panel

Obtuve datos de una simulación que me da algunos valores almacenados en un DataFrame (100 filas x 6 columnas). Para variar los valores de inicio, guardé mis datos en un Panel (2 DataFrames x 100 filas x 6 columnas). Ahora quiero comparar cómo se compara la columna llamada ‘A’ en ambas simulaciones (DataFrames llamada ‘Sim1’ […]

Filtrado basado en los datos de “filas” después de crear una tabla dinámica en pandas python

Tengo un conjunto de datos que obtengo de una base de datos SQL y los leo en un dataframe de pandas. El df resultante es de aproximadamente 250M filas y crece cada día. Por lo tanto, me gustaría girar la tabla para darme una tabla mucho más pequeña para trabajar (unos pocos miles de filas). […]

¿Hay algún límite para el almacén de datos local que ejecuta Google App Engine Python?

Tengo un modelo simple: class MyEntry(db.Model): keyName = db.StringProperty() valuesList = db.StringListProperty() y quiero rellenar el almacén de datos con aproximadamente 7000 instancias de esta entidad desde un archivo. (Tengo una función que lee del archivo, crea las entidades y las coloca en la base de datos) Estoy usando la consola interactiva de la consola […]

Convertir archivos CSV a TF Records

Llevo más de 5 horas ejecutando mi script. Tengo 258 archivos CSV que quiero convertir a TF Records. Escribí el siguiente script y, como he dicho, ya lo he estado ejecutando durante más de 5 horas: import argparse import os import sys import standardize_data import tensorflow as tf FLAGS = None PATH = ‘/home/darth/GitHub Projects/gru_svm/dataset/train’ […]

Mantener las columnas después de un grupo en un dataframe vacío

El dataframe es un df vacío después de la consulta. Cuando esté agrupado, active la advertencia de tiempo de ejecución, luego obtenga otro dataframe vacío sin columnas. ¿Cómo mantener las columnas? df = pd.DataFrame(columns=[“PlatformCategory”,”Platform”,”ResClassName”,”Amount”]) print df resultado: Empty DataFrame Columns: [PlatformCategory, Platform, ResClassName, Amount] Index: [] entonces groupby: df = df.groupby([“PlatformCategory”,”Platform”,”ResClassName”]).sum() df = df.reset_index(drop=False,inplace=True) print […]

Asignar nuevos valores a la división desde MultiIndex DataFrame

Me gustaría modificar algunos valores de una columna en mi DataFrame. En este momento tengo una vista desde la selección a través del índice múltiple de mi df original (y la modificación cambia df ). Aquí hay un ejemplo: In [1]: arrays = [np.array([‘bar’, ‘bar’, ‘baz’, ‘qux’, ‘qux’, ‘bar’]), np.array([‘one’, ‘two’, ‘one’, ‘one’, ‘two’, ‘one’]), […]

¿Hay un módulo de Python para abrir archivos SPSS?

¿Hay un módulo para que Python abra archivos de IBM SPSS (es decir, .sav)? Sería genial si hubiera algo actualizado que no requiera archivos / bibliotecas dll adicionales.

Almacenamiento básico de datos con Python

Necesito almacenar datos básicos de los clientes y los automóviles que compraron y el cronogtwig de pago de estos automóviles. Estos datos provienen de GUI, escrito en Python. No tengo la experiencia suficiente para usar un sistema de base de datos como sql, por lo que quiero almacenar mis datos en un archivo como texto […]

¿Cómo haces un bucle For cuando no necesitas un índice en Python?

si necesito un bucle for en python for i in range(1,42): print “spam” pero no use la “i” para cualquier cosa que el pylint se queja sobre la variable no utilizada. ¿Cómo debería manejar esto? Sé que puedes hacerlo: for dummy_index in range(1,42): print “spam” Pero hacer esto me parece bastante extraño, ¿hay alguna manera […]