Articles of estadísticas de

Prueba de Chi Cuadrado usando Frecuencias, Contenedores, CDF, Python

Estoy tratando de escribir una prueba de bondad de ajuste de chi square para la distribución Beta desde cero, sin usar ninguna función externa. El código que aparece a continuación indica ‘1’ para un ajuste, aunque kstest de scipy.stats devuelve un cero. Los datos se distribuyen normalmente, por lo que mi función también debe devolver […]

¿Cómo calcular el valor de p para dos listas de flotadores?

Así que tengo listas de flotadores. Como [1.33,2.555,3.2134,4.123123] etc. Esas listas son frecuencias medias de algo. ¿Cómo puedo probar que dos listas son diferentes? Pensé en calcular el valor de p ¿Hay una función para hacer eso? Miré a través de la documentación de scipy, pero no pude averiguar qué usar. ¿Alguien puede por favor […]

¿Cómo visualizar el intervalo de confianza del 95% en matplotlib?

Aprendí cómo encontrar el intervalo de confianza del 95% con scipy.stats.t In [1]: from scipy.stats import t In [2]: t.interval(0.95, 10, loc=1, scale=2) # 95% confidence interval Out[2]: (-3.4562777039298762, 5.4562777039298762) In [3]: t.interval(0.99, 10, loc=1, scale=2) # 99% confidence interval Out[3]: (-5.338545334351676, 7.338545334351676) Sin embargo, la visualización es importante para mí. Me pregunto cómo puedo […]

Encontrar valores atípicos en un conjunto de datos

Tengo una secuencia de comandos de Python que crea una lista de listas de tiempo de actividad del servidor y datos de rendimiento, donde cada sub-lista (o “fila”) contiene las estadísticas de un clúster en particular. Por ejemplo, bien formateado se ve algo como esto: ——- ————- ———— ———- ——————- Cluster %Availability Requests/Sec Errors/Sec %Memory_Utilization […]

¿Cómo encontrar la distribución de probabilidad y los parámetros para datos reales? (Python 3)

Tengo un conjunto de datos de sklearn y sklearn la distribución de los datos de load_diabetes.target (es decir, los valores de la regresión que se utilizan para load_diabetes.data ). Utilicé esto porque tiene el menor número de variables / atributos de la regresión sklearn.datasets . Utilizando Python 3, ¿cómo puedo obtener el tipo de distribución […]

Calcular el porcentaje de probabilidad de Poisson

Cuando utiliza la función POISSON en Excel (o en OpenOffice Calc), toma dos argumentos: un entero un número ‘promedio’ y devuelve un flotador. En Python (probé RandomArray y NumPy) devuelve una serie de números de poisson aleatorios. Lo que realmente quiero es el porcentaje que ocurrirá este evento (es un número constante y la matriz […]

¿Algoritmo para decidir el corte para colapsar este árbol?

Tengo un árbol de Newick que se construye comparando la similitud (distancia euclidiana) de las Matrices de Peso de Posición (PWM o PSSM) de los supuestos motivos reguladores de ADN que son secuencias de ADN de 4-9 pb de longitud. Una versión interactiva del árbol está arriba en iTol ( aquí ), con la que […]

Valor de p de la estadística de prueba Chi cuadrado en Python

He calculado una estadística de prueba que se distribuye como un chi cuadrado con 1 grado de libertad, y quiero saber qué valor de P corresponde al uso de python. Soy un novato de python and maths / stats, así que creo que lo que quiero aquí es la función de denegación de probabilidad para […]

Scikit-learn está devolviendo valores de coeficiente de determinación (R ^ 2) menores que -1

Estoy haciendo un modelo lineal simple. yo tengo fire = load_data() regr = linear_model.LinearRegression() scores = cross_validation.cross_val_score(regr, fire.data, fire.target, cv=10, scoring=’r2′) print scores cuyos rendimientos [ 0.00000000e+00 0.00000000e+00 -8.27299054e+02 -5.80431382e+00 -1.04444147e-01 -1.19367785e+00 -1.24843536e+00 -3.39950443e-01 1.95018287e-02 -9.73940970e-02] ¿Cómo es esto posible? Cuando hago lo mismo con los datos de diabetes integrados, funciona perfectamente bien, pero para […]

Región de mayor densidad posterior y región central creíble

Dada una p posterior (Θ | D) sobre algunos parámetros Θ, se puede definir lo siguiente: Región de mayor densidad posterior: La región de densidad posterior más alta es el conjunto de valores más probables de que, en total, constituyen el 100 (1-α)% de la masa posterior. En otras palabras, para un α dado, buscamos […]