Articles of Statistics

Gráficas de caja en matplotlib: marcadores y valores atípicos

Tengo algunas preguntas acerca de los diagtwigs de caja en matplotlib: Pregunta A. ¿Qué representan los marcadores que resalté a continuación con Q1 , Q2 y Q3 ? Creo que Q1 es máximo y Q3 son valores atípicos, pero ¿qué es Q2 ? Pregunta B ¿Cómo identifica matplotlib los valores atípicos ? (es decir, ¿cómo […]

Cómo hacer funciones definidas por el usuario para binned_statistic

Estoy usando el paquete de estadísticas scipy para llevar estadísticas a lo largo de un eje, pero tengo problemas para tomar la estadística de percentiles usando binned_statistic . He generalizado el código a continuación, donde estoy intentando tomar el percentil 10 de un conjunto de datos con valores x, y dentro de una serie de […]

¿Cómo calcular la probabilidad de ocurrencias en Python?

Estoy trabajando con tres conjuntos de datos simples y por razones de reproducibilidad, estoy compartiendo el conjunto de datos aquí . Para aclarar lo que estoy haciendo, de la columna 2, estoy leyendo la fila actual y la comparo con el valor de la fila anterior. Si es mayor, sigo comparando. Si el valor actual […]

Pandas: por qué pandas.Series.std () es diferente de numpy.std ()

Otra actualización: resuelta (ver comentarios y mi propia respuesta). Actualización: esto es lo que estoy tratando de explicar. >>> pd.Series([7,20,22,22]).std() 7.2284161474004804 >>> np.std([7,20,22,22]) 6.2599920127744575 Respuesta: esto se explica por la corrección de Bessel , N-1 lugar de N en el denominador de la fórmula de desviación estándar. Ojalá Pandas usara la misma convención que numpy. […]

NumPy o SciPy para calcular la mediana ponderada

Estoy tratando de automatizar un proceso que realiza JMP (Analizar-> Distribución, ingresando la columna A como el “valor Y”, utilizando las columnas subsiguientes como el valor del “peso”). En JMP, debe hacer esto una columna a la vez; me gustaría usar Python para recorrer todas las columnas y crear una matriz que muestre, por ejemplo, […]

Cálculo de la correlación y significación de Pearson en Python

Estoy buscando una función que tome como entrada dos listas, y devuelva la correlación de Pearson , y el significado de la correlación.

¿Cómo encajar una distribución beta en Python?

Estoy trabajando con un conjunto de datos simple y por razones de reproducibilidad, lo comparto aquí . Para aclarar lo que estoy haciendo, de la columna 2, estoy leyendo la fila actual y la comparo con el valor de la fila anterior. Si es mayor, sigo comparando. Si el valor actual es más pequeño que […]

¿Ajustando la distribución empírica a las teóricas con Scipy (Python)?

INTRODUCCIÓN: Tengo una lista de más de 30 000 valores que van de 0 a 47, por ejemplo, [0,0,0,0, .., 1,1,1,1, …, 2,2,2,2, …, 47 etc.] que es la distribución continua. PROBLEMA: Según mi distribución, me gustaría calcular el valor de p (la probabilidad de ver valores mayores) para cualquier valor dado. Por ejemplo, como […]