Articles of Statistics

pandas: encuentra estadísticas de percentiles de una columna dada

Tengo un dataframe de pandas my_df, donde puedo encontrar la media (), la mediana (), el modo () de una columna determinada: my_df[‘field_A’].mean() my_df[‘field_A’].median() my_df[‘field_A’].mode() Me pregunto si es posible encontrar estadísticas más detalladas, como el percentil 90. ¡Gracias!

Ajuste de datos con una distribución personalizada usando scipy.stats

Entonces noté que no hay implementación de la distribución t generalizada scipy en scipy . Me sería útil ajustar esto a la distribución de algunos datos que tengo. Lamentablemente el fit no parece estar funcionando en este caso para mí. Para explicar con más detalle lo he implementado así. import numpy as np import pandas […]

media armónica en python

La función de media armónica en Python ( scipy.stats.hmean ) requiere que la entrada sea un número positivo. Por ejemplo: from scipy import stats print stats.hmean([ -50.2 , 100.5 ]) resultados en: ValueError: Harmonic mean only defined if all elements greater than zero No entiendo matemáticamente por qué este debería ser el caso, excepto en […]

¿Cómo optimizar el código MAPE en Python?

Necesito tener una función MAPE, sin embargo, no pude encontrarla en paquetes estándar … A continuación, mi implementación de esta función. def mape(actual, predict): tmp, n = 0.0, 0 for i in range(0, len(actual)): if actual[i] 0: tmp += math.fabs(actual[i]-predict[i])/actual[i] n += 1 return (tmp/n) No me gusta, es super no óptimo en términos de […]

Es aleatoria.expariable equivalente a un proceso de Poisson

Leí en alguna parte que la función de la biblioteca python random.expariable produce intervalos equivalentes a los eventos del proceso de Poisson. ¿Es ese realmente el caso o debo imponer alguna otra función en los resultados?

Ajuste de la distribución lognormal usando Scipy vs Matlab

Estoy tratando de ajustar una distribución lognormal usando Scipy. Ya lo he hecho con Matlab antes, pero debido a la necesidad de extender la aplicación más allá del análisis estadístico, estoy intentando reproducir los valores ajustados en Scipy. A continuación se muestra el código de Matlab que solía ajustar a mis datos: % Read input […]

Ajuste binomial negativo en python

En scipy no hay soporte para ajustar una distribución binomial negativa utilizando datos (tal vez debido al hecho de que el binomio negativo en scipy es solo discreto). Para una distribución normal solo haría: from scipy.stats import norm param = norm.fit(samp) ¿Hay alguna función similar ‘lista para usar’ en otra biblioteca?

¿Ajustando los datos a las distribuciones?

No soy un estadístico (más de un desarrollador web de investigación) pero he estado escuchando mucho sobre scipy y R en estos días. Así que, por curiosidad, quise hacer esta pregunta (aunque podría parecer una tontería para los expertos de aquí) porque no estoy seguro de los avances en esta área y quiero saber cómo […]

Superposición de múltiples histogtwigs utilizando pandas

Tengo dos o tres archivos csv con el mismo encabezado y me gustaría dibujar los histogtwigs para cada columna superpuesta en la misma gráfica. El siguiente código me da dos figuras separadas, cada una con todos los histogtwigs de cada uno de los archivos. ¿Hay una manera compacta de trazarlos juntos en la misma figura […]

Gráficas de caja en matplotlib: marcadores y valores atípicos

Tengo algunas preguntas acerca de los diagtwigs de caja en matplotlib: Pregunta A. ¿Qué representan los marcadores que resalté a continuación con Q1 , Q2 y Q3 ? Creo que Q1 es máximo y Q3 son valores atípicos, pero ¿qué es Q2 ? Pregunta B ¿Cómo identifica matplotlib los valores atípicos ? (es decir, ¿cómo […]