Articles of estadísticas de

¿Cómo eliminar correctamente los componentes redundantes para el DPGMM de Scikit-Learn?

Estoy usando scikit-learn para implementar el Modelo de Mezcla Gaussiana de Proceso de Dirichlet: https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/mixture/dpgmm.py http://scikit-learn.org/stable/modules/generated/sklearn.mixture. Es decir, es sklearn.mixture.BayesianGaussianMixture() con el valor predeterminado establecido en weight_concentration_prior_type = ‘dirichlet_process’ . A diferencia de k-means, donde los usuarios establecen el número de clusters “k” a priori, DPGMM es un modelo de mezcla infinita con el Proceso […]

Statsmodels.formula.api OLS no muestra valores estadísticos de intercepción

Estoy ejecutando el siguiente código fuente: import statsmodels.formula.api as sm # Add one column of ones for the intercept term X = np.append(arr= np.ones((50, 1)).astype(int), values=X, axis=1) regressor_OLS = sm.OLS(endog=y, exog=X).fit() print(regressor_OLS.summary()) dónde X es una matriz numpy de 50×5 (antes de agregar el término de intercepción) que se ve así: [[0 1 165349.20 136897.80 […]

MNLogit en statsmodel regresando nan

Estoy tratando de usar la función MNLogit de statsmodels en el famoso conjunto de datos de iris. Obtengo: “Valor actual de la función: nan” cuando bash ajustar un modelo. Aquí está el código que estoy usando: import statsmodels.api as st iris = st.datasets.get_rdataset(‘iris’,’datasets’) y = iris.data.Species x = iris.data.ix[:, 0:4] x = st.add_constant(x, prepend = […]

Crear una distribución continua en python.

Estoy teniendo problemas para crear una distribución continua en python y realmente está empezando a molestarme. He leído y releído esta guía de python (guía de scipy) y no ha ayudado a mi problema. Mi código lee: import sys import scipy.stats import numpy def CDF_Random(N,NE,E,SE,S,SW,W,NW,Iterations): WindDir = [0,45,90,135,180,225,270,315] Freq = N,NE,E,SE,S,SW,W,NW mydist = scipy.stats.rv_continuous(#My problem […]

Pandas: Función de suavizado exponencial para columna.

Tengo el siguiente DataFrame con datos de trading: df = pd.DataFrame({ ‘Trader’: ‘Carl Mark Carl Joe Mark Carl Max Max’.split(), ‘Quantity’: [5,2,5,10,1,5,2,1], ‘Date’ : [ DT.datetime(2013,1,1,13,0), DT.datetime(2013,1,1,13,5), DT.datetime(2013,2,5,20,0), DT.datetime(2013,2,6,10,0), DT.datetime(2013,2,8,12,0), DT.datetime(2013,3,7,14,0), DT.datetime(2013,6,4,14,0), DT.datetime(2013,7,4,14,0), ]}) df.index = [df.Date, df.Trader] Espero calcular estadísticas semanales para cada comerciante con los volúmenes de pedidos promedio. Para hacerlo, actualmente estoy […]

¿Existe un método de Python para calcular la media y la varianza lognormal?

Estoy tratando de entender si hay una función Python integrada para calcular la media y la varianza lognormal. Solo necesito esta información para luego scipy.stats.lognorm en scipy.stats.lognorm para un gráfico superpuesto sobre un histogtwig. El simple uso de numpy.mean y numpy.std no parece ser la idea correcta, ya que la media y la varianza lognormal […]

¿Cómo calculo el PDF (función de densidad de probabilidad) en Python?

Tengo el siguiente código a continuación que imprime el gráfico PDF para una media y una desviación estándar en particular. View post on imgur.com Ahora necesito encontrar la probabilidad real, de un valor particular. Entonces, por ejemplo, si mi media es 0 y mi valor es 0, mi probabilidad es 1. Esto generalmente se hace […]

Estadística para histogtwig de datos periódicos.

Para una serie de valores de ángulo en el rango (-pi, pi), hago un histogtwig. ¿Existe una manera efectiva de calcular una media y un valor modal (post probable)? Considere los siguientes ejemplos: import numpy as N, cmath deg = N.pi/180. d = N.array([-175., 170, 175, 179, -179])*deg i = N.sum(N.exp(1j*d)) ave = cmath.phase(i) i […]

Errores estándar inesperados con mínimos cuadrados ponderados en Python Pandas

En el código de la clase principal de OLS en Python Pandas , busco ayuda para aclarar qué convenciones se usan para el error estándar y las estadísticas t que se informan cuando se realiza el OLS ponderado. Aquí está mi ejemplo de conjunto de datos, con algunas importaciones para usar Pandas y usar scikits.statsmodels […]

¿Cómo puedo determinar los valores altos y bajos en una serie de datos cíclicos?

Tengo algunos datos que representan movimiento periódico. Entonces, va de lo alto a lo bajo y vuelve otra vez; Si fueras a trazarlo, te gustaría una onda sinusoidal. Sin embargo, la amplitud varía ligeramente en cada ciclo. Me gustaría hacer una lista de cada máximo y mínimo en toda la secuencia. Si hubiera 10 ciclos […]