Articles of Statistics

Cálculo del promedio móvil por hora y de 2 horas para diferentes eventos en el dataframe de pandas

Tengo un dataframe como se muestra a continuación: Event DateTime ModFlow(cfs) ObsFlow(cfs) ModVol(f3) ObsVol(f3) Event 01 8/15/2016 3:10 0.7309299 0.6408669 219.27897 192.26007 Event 01 8/15/2016 3:15 0.7177225 0.3482972 215.31675 104.48916 Event 01 8/15/2016 3:20 0.7182343 0.5108359 215.47029 153.25077 Event 01 8/15/2016 3:25 0.7078446 0.6315789 212.35338 189.47367 Event 01 8/15/2016 3:30 0.6973493 0.5201238 209.20479 156.03714 Event […]

Escalado y ajuste a una distribución log-normal usando un eje logarítmico en python

Tengo un conjunto de muestras log-normal distribuido. Puedo visualizar las muestras utilizando un histrogtwig con eje x lineal o logarítmico. Puedo realizar un ajuste al histogtwig para obtener el PDF y luego escalarlo al histrogtwig en la gráfica con el eje x lineal, vea también esta pregunta previamente publicada . Sin embargo, no puedo trazar […]

Sumando sobre un nivel multiindex en una serie de pandas

Al usar el paquete Pandas en python, me gustaría sumr (marginar) más de un nivel en una serie con un índice múltiple de 3 niveles para producir una serie con un índice múltiple de 2 niveles. Por ejemplo, si tengo lo siguiente: ind = [tuple(x) for x in [‘ABC’, ‘ABc’, ‘AbC’, ‘Abc’, ‘aBC’, ‘aBc’, ‘abC’, […]

Cómo realizar una prueba t de una cola de dos muestras con numpy / scipy

En R , es posible realizar una prueba t de una cola de dos muestras simplemente usando > A = c(0.19826790, 1.36836629, 1.37950911, 1.46951540, 1.48197798, 0.07532846) > B = c(0.6383447, 0.5271385, 1.7721380, 1.7817880) > t.test(A, B, alternative=”greater”) Welch Two Sample t-test data: A and B t = -0.4189, df = 6.409, p-value = 0.6555 alternative […]

¿Cómo determinar cuál es la función de distribución de probabilidad de una matriz numpy?

He buscado alrededor y para mi sorpresa, parece que esta pregunta no ha sido respondida. Tengo una matriz Numpy que contiene 10000 valores de mediciones. He trazado un histogtwig con Matplotlib, y por inspección visual los valores parecen estar distribuidos normalmente: Sin embargo, me gustaría validar esto. He encontrado una prueba de normalidad implementada en […]

Regresión sigmoidal con scipy, numpy, python, etc.

Tengo dos variables (x e y) que tienen una relación un tanto sigmoidal entre sí, y necesito encontrar algún tipo de ecuación de predicción que me permita predecir el valor de y, dado cualquier valor de x. Mi ecuación de predicción necesita mostrar la relación algo sigmoidal entre las dos variables. Por lo tanto, no […]

Precisión, ¿por qué Matlab y Python numpy dan salidas tan diferentes?

Sé sobre los tipos de datos básicos y que los tipos flotantes (flotante, doble) no pueden contener algunos números exactamente. Sin embargo, al portar algunos códigos de Matlab a Python (Numpy), encontré algunas diferencias significativas en los cálculos, y creo que está volviendo a la precisión. Tome el siguiente código, z-normalizando un vector de 500 […]

pandas: encuentra estadísticas de percentiles de una columna dada

Tengo un dataframe de pandas my_df, donde puedo encontrar la media (), la mediana (), el modo () de una columna determinada: my_df[‘field_A’].mean() my_df[‘field_A’].median() my_df[‘field_A’].mode() Me pregunto si es posible encontrar estadísticas más detalladas, como el percentil 90. ¡Gracias!

Ajuste de datos con una distribución personalizada usando scipy.stats

Entonces noté que no hay implementación de la distribución t generalizada scipy en scipy . Me sería útil ajustar esto a la distribución de algunos datos que tengo. Lamentablemente el fit no parece estar funcionando en este caso para mí. Para explicar con más detalle lo he implementado así. import numpy as np import pandas […]

media armónica en python

La función de media armónica en Python ( scipy.stats.hmean ) requiere que la entrada sea un número positivo. Por ejemplo: from scipy import stats print stats.hmean([ -50.2 , 100.5 ]) resultados en: ValueError: Harmonic mean only defined if all elements greater than zero No entiendo matemáticamente por qué este debería ser el caso, excepto en […]