Articles of datos

Python Postgres psycopg2 ThreadedConnectionPool agotado

He examinado varios temas relacionados con “demasiados clientes” aquí, pero aún no puedo resolver mi problema, así que tengo que volver a preguntar, para mi caso específico. Básicamente, configuré mi servidor Postgres local y necesito hacer decenas de miles de consultas, así que usé el paquete psycopg2package de Python. Aquí están mis códigos: import psycopg2 […]

¿Cómo hacer referencia a un grupo por índice cuando se usa apply, transform, agg – Python Pandas?

Para ser concretos, digamos que tenemos dos DataFrames: df1: date A 0 12/1/14 3 1 12/1/14 1 2 12/3/14 2 3 12/3/14 3 4 12/3/14 4 5 12/6/14 5 df2: B 12/1/14 10 12/2/14 20 12/3/14 10 12/4/14 30 12/5/14 10 12/6/14 20 Ahora quiero agrupar por fecha en df1, y tomar una sum del […]

¿Por qué scipy.optimize.curve_fit no se ajusta correctamente a los datos?

He estado tratando de adaptar una función a algunos datos durante un tiempo usando scipy.optimize.curve_fit pero tengo una dificultad real. Realmente no puedo ver ninguna razón por la que esto no funcionaría. # encoding: utf-8 from __future__ import (print_function, division, unicode_literals, absolute_import, with_statement) import numpy as np from scipy.optimize import curve_fit import matplotlib.pyplot as mpl […]

No se puede conectar a Cassandra de forma remota con el controlador DataStax Python

Tengo problemas para conectarme a Cassandra (que se ejecuta en un nodo EC2) de forma remota (desde mi computadora portátil). Cuando uso el controlador DataStax Python para Cassandra: from cassandra.cluster import Cluster cluster = Cluster([’10.XXX’], port=9042) cluster.connect() Yo obtengo: Traceback (most recent call last): File “/Users/user/virtualenvs/test/lib/python2.7/site-packages/IPython/core/interactiveshell.py”, line 3035, in run_code exec(code_obj, self.user_global_ns, self.user_ns) File “”, […]

Pandas añadiendo una fila extra a DataFrame al asignar índice

Estoy tratando de usar la 0ª columna (“Nombre.General”) como valores de índice. Aquí están los datos originales a continuación: Intenté establecer el índice de varias maneras diferentes. El primero fue usar index_col=0 en la creación del DataFrame . También probé DF_mutations.index = DF_mutations[“Gene.name”] pero ambos llevaron a una fila vacía debajo del encabezado que se […]

¿Cómo se puede superponer la ttwig de caja sobre la plot de enjambre en Seaborn?

Estoy tratando de trazar plots de enjambre y plots de caja juntos con matplotlib y Seaborn. Descubrí cómo trazarlos juntos, pero la ttwig de caja aparece debajo de la ttwig del enjambre. El problema con esto es que los puntos de la gráfica de enjambre ahogan la gráfica de caja y la gráfica de caja […]

¿Es así como paginas, o hay un algoritmo mejor?

Quiero poder tomar una secuencia como: my_sequence = [‘foo’, ‘bar’, ‘baz’, ‘spam’, ‘eggs’, ‘cheese’, ‘yogurt’] Usa una función como: my_paginated_sequence = get_rows(my_sequence, 3) Llegar: [[‘foo’, ‘bar’, ‘baz’], [‘spam’, ‘eggs’, ‘cheese’], [‘yogurt’]] Esto es lo que se me ocurrió con solo pensarlo: def get_rows(sequence, num): count = 1 rows = list() cols = list() for item […]

Pregunta general sobre archivos binarios

Soy un principiante y tengo problemas para captar archivos binarios. Cuando escribo en un archivo en modo binario (en python), solo escribo texto normal. No hay nada binario al respecto. Sé que cada archivo en mi computadora es un archivo binario, pero tengo problemas para distinguir entre los archivos escritos en modo binario por mí […]

SQLAlchemy – Relación auto-referencial de muchos a muchos con una columna extra

Tengo un modelo que representa al usuario y quiero crear una relación entre los usuarios que representan que son amigos. Mi modelo funcional con tabla de asociación y métodos para enumerar a todos los amigos se ven así. friendship = db.Table(‘friend’, db.Column(‘id’, db.Integer, primary_key=True), db.Column(‘fk_user_from’, db.Integer, db.ForeignKey(‘user.id’), nullable=False), db.Column(‘fk_user_to’, db.Integer, db.ForeignKey(‘user.id’), nullable=False) ) class User(db.Model): […]

Pandas Dataframe: Reemplazo de NaN por promedio de filas

Estoy tratando de aprender pandas, pero me ha sorprendido lo siguiente, por favor. Quiero reemplazar NaNs es un dataframe con el promedio de la fila. Por lo tanto, algo como df.fillna(df.mean(axis=1)) debería funcionar, pero por alguna razón me falla. ¿Me estoy perdiendo algo por favor, algo que estoy haciendo mal? Es porque no está implementado; […]