Articles of estadísticas de

Una distribución lognormal en python

He visto varias preguntas en stackoverflow con respecto a cómo ajustar una log-normal distribution . Todavía hay dos aclaraciones que necesito conocer. Tengo una muestra de datos, cuyo logaritmo sigue una distribución normal. Así que puedo ajustar los datos usando scipy.stats.lognorm.fit (es decir, una log-normal distribution ) El ajuste está funcionando bien, y también me […]

calculando el coeficiente de Gini en Python / numpy

Estoy calculando el coeficiente de Gini (similar a: Python – Cálculo del coeficiente de Gini usando Numpy ) pero obtengo un resultado impar. para una distribución uniforme muestreada de np.random.rand() , el coeficiente de Gini es de 0,3, pero habría esperado que estuviera cerca de 0 (igualdad perfecta). ¿Qué está mal aquí? def G(v): bins […]

PyTorch – los parámetros no cambian

En un esfuerzo por aprender cómo funciona Pytorch, estoy tratando de hacer la estimación de máxima probabilidad de algunos de los parámetros en una distribución normal multivariada. Sin embargo, no parece funcionar para ninguno de los parámetros relacionados con la covarianza. Entonces mi pregunta es: ¿por qué este código no funciona? import torch def make_covariance_matrix(sigma, […]

Diferencia entre la interacción: y * término para las fórmulas en la regresión StatsModels OLS

Hola, estoy aprendiendo Statsmodel y no puedo entender la diferencia entre: y * (términos de interacción) para las fórmulas en la regresión StatsModels OLS. ¿Podría por favor darme una pista para resolver esto? ¡Gracias! La documentación: http://statsmodels.sourceforge.net/devel/example_formulas.html

XGBoost CV y ​​mejor iteración.

Estoy usando XGBoost cv para encontrar el número óptimo de rondas para mi modelo. Estaría muy agradecido si alguien pudiera confirmar (o refutar), el número óptimo de rondas es: estop = 40 res = xgb.cv(params, dvisibletrain, num_boost_round=1000000000, nfold=5, early_stopping_rounds=estop, seed=SEED, stratified=True) best_nrounds = res.shape[0] – estop best_nrounds = int(best_nrounds / 0.8) es decir: el número […]

¿Cómo hago una prueba F en python?

¿Cómo hago una prueba F para verificar si la varianza es equivalente en dos vectores en Python? Por ejemplo si tengo a = [1,2,1,2,1,2,1,2,1,2] b = [1,3,-1,2,1,5,-1,6,-1,2] hay algo similar a scipy.stats.ttest_ind(a, b) encontré sp.stats.f(a, b) Pero parece ser algo diferente a una prueba F

¿Cómo obtengo una distribución lognormal en Python con Mu y Sigma?

He estado tratando de obtener el resultado de una distribución lognormal usando Scipy . Ya tengo el Mu y Sigma, así que no necesito hacer ningún otro trabajo de preparación. Si necesito ser más específico (y estoy tratando de estar con mi limitado conocimiento de las estadísticas), diría que estoy buscando la función acumulativa (cdf […]

¿Qué módulo de estadísticas para python admite ANOVA de una vía con pruebas post hoc (Tukey, Scheffe u otra)?

He intentado buscar en varios módulos de estadísticas de Python, pero parece que no puedo encontrar ninguno que admita las pruebas post hoc one-way ANOVA .

Reducción de dimensión en datos categóricos con valores perdidos

Tengo un modelo de regresión en el que la variable dependiente es continua, pero el noventa por ciento de las variables independientes son categóricas (tanto ordenadas como desordenadas) y alrededor del treinta por ciento de los registros tienen valores faltantes (para empeorar las cosas, faltan al azar sin ningún patrón, es decir, más de cuarenta […]

KL-Divergencia de dos GMMs

Tengo dos GMM que solía encajar en dos conjuntos diferentes de datos en el mismo espacio, y me gustaría calcular la divergencia KL entre ellos. Actualmente estoy usando los GMM definidos en sklearn ( http://scikit-learn.org/stable/modules/generated/sklearn.mixture.GMM.html ) y la implementación SciPy de KL-divergence ( http: //docs.scipy .org / doc / scipy-dev / reference / genera / […]