Articles of datos

base de datos en memoria en Python

Estoy haciendo algunas consultas en Python en una gran base de datos para obtener algunas estadísticas de la base de datos. Quiero que estas estadísticas estén en la memoria para que otros progtwigs puedan usarlas sin tener que ir a una base de datos. Estaba pensando en cómo estructurarlos, y después de intentar configurar algunos […]

Parcela de matriz de correlación utilizando pandas.

Tengo un conjunto de datos con un gran número de características, por lo que el análisis de la matriz de correlación se ha vuelto muy difícil. Quiero trazar una matriz de correlación que obtengamos usando la función dataframe.corr() de la biblioteca pandas. ¿Hay alguna función incorporada proporcionada por la biblioteca de pandas para trazar esta […]

Cómo cambiar manualmente las tags de garrapatas de las plots de margen en una plot de Seaborn

Estoy tratando de usar una escala logarítmica como los diagtwigs de margen para mi gráfica de par en el mar. Estoy usando set_xticks () y set_yticks (), pero mis cambios no aparecen. Aquí está mi código a continuación y el gráfico resultante: import matplotlib.pyplot as plt %matplotlib inline import numpy as np import seaborn as […]

Manipulación de datos – Índice de clasificación cuando los valores son alfanuméricos

Me pregunto cómo debería abordar este problema de manipulación de datos. Cuál es el mejor método para ordenar un índice de un multi-índice en un dataframe donde los valores de a nivel del índice son alfanuméricos. Los valores son: [u’0′, u’1′, u’10’, u’11’, u’2′, u’2Y’, u’3′, u’3Y’, u’4′, u’4Y’, u’5′, u’5Y’, u’6′, u’7′, u’8′, u’9′, […]

Acceso a campos de bits mientras se leen / escriben estructuras de datos binarios

Estoy escribiendo un analizador para un formato binario. Este formato binario involucra diferentes tablas que, de nuevo, están en formato binario y contienen diferentes tamaños de campo (en algún lugar entre 50 y 100 de ellas). La mayoría de estas estructuras tendrán campos de bits y se verán como estos cuando se representen en C: […]

¿Cómo ordenar un DataFrame por dos columnas, usando un orden personalizado?

Tengo un dataframe de pandas que necesito ordenar en un orden particular en una columna, y simplemente ascendiendo en otra. Ambas columnas tienen valores repetidos. Se ve más o menos así: import pandas as pd df = pd.DataFrame() df[0] = pd.Series( [ ‘a’, ‘aa’, ‘c’ ] * 2 ) df[1] = pd.Series( [ 1, 2 […]

Python Postgres psycopg2 ThreadedConnectionPool agotado

He examinado varios temas relacionados con “demasiados clientes” aquí, pero aún no puedo resolver mi problema, así que tengo que volver a preguntar, para mi caso específico. Básicamente, configuré mi servidor Postgres local y necesito hacer decenas de miles de consultas, así que usé el paquete psycopg2package de Python. Aquí están mis códigos: import psycopg2 […]

¿Cómo hacer referencia a un grupo por índice cuando se usa apply, transform, agg – Python Pandas?

Para ser concretos, digamos que tenemos dos DataFrames: df1: date A 0 12/1/14 3 1 12/1/14 1 2 12/3/14 2 3 12/3/14 3 4 12/3/14 4 5 12/6/14 5 df2: B 12/1/14 10 12/2/14 20 12/3/14 10 12/4/14 30 12/5/14 10 12/6/14 20 Ahora quiero agrupar por fecha en df1, y tomar una sum del […]

¿Por qué scipy.optimize.curve_fit no se ajusta correctamente a los datos?

He estado tratando de adaptar una función a algunos datos durante un tiempo usando scipy.optimize.curve_fit pero tengo una dificultad real. Realmente no puedo ver ninguna razón por la que esto no funcionaría. # encoding: utf-8 from __future__ import (print_function, division, unicode_literals, absolute_import, with_statement) import numpy as np from scipy.optimize import curve_fit import matplotlib.pyplot as mpl […]

No se puede conectar a Cassandra de forma remota con el controlador DataStax Python

Tengo problemas para conectarme a Cassandra (que se ejecuta en un nodo EC2) de forma remota (desde mi computadora portátil). Cuando uso el controlador DataStax Python para Cassandra: from cassandra.cluster import Cluster cluster = Cluster([’10.XXX’], port=9042) cluster.connect() Yo obtengo: Traceback (most recent call last): File “/Users/user/virtualenvs/test/lib/python2.7/site-packages/IPython/core/interactiveshell.py”, line 3035, in run_code exec(code_obj, self.user_global_ns, self.user_ns) File “”, […]