Articles of validación cruzada

Error de métrica Scikit F-score

Estoy tratando de predecir un conjunto de tags utilizando Regresión logística de SciKit. Mis datos están realmente desequilibrados (hay muchas más tags ‘0’ que ‘1’), así que tengo que usar la métrica de puntaje F1 durante el paso de validación cruzada para “equilibrar” el resultado. [Input] X_training, y_training, X_test, y_test = generate_datasets(df_X, df_y, 0.6) logistic […]

¿Validación cruzada aleatoria estratificada de k-pliegue en scikit-learn?

¿Existe alguna forma integrada de obtener scikit-learn para realizar la validación cruzada de K-pliegue estratificado aleatorio? Este es uno de los métodos de CV más comunes, y me sorprende que no haya podido encontrar un método integrado para hacer esto. Vi que cross_validation.KFold() tiene una bandera de barajar, pero no está estratificado. Desafortunadamente, cross_validation.StratifiedKFold() no […]

Búsqueda en cuadrícula y detención temprana mediante la validación cruzada con XGBoost en SciKit-Learn

Soy bastante nuevo en sci-kit learn y he estado tratando de sintonizar hiperactivamente XGBoost. Mi objective es utilizar la detención temprana y la búsqueda en cuadrícula para ajustar los parámetros del modelo y usar la detención temprana para controlar el número de árboles y evitar el sobreajuste. Como uso la validación cruzada para la búsqueda […]

diferencia entre StratifiedKFold y StratifiedShuffleSplit en sklearn

A partir del título me pregunto cuál es la diferencia entre StratifiedKFold con el parámetro shuffle = True StratifiedKFold(n_splits=10, shuffle=True, random_state=0) y Stratified ShuffleSplit StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=0) y cuál es la ventaja de usar StratifiedShuffleSplit

sklearn: validación cruzada definida por el usuario para datos de series de tiempo

Estoy tratando de resolver un problema de aprendizaje automático. Tengo un conjunto de datos específico con elementos de series de tiempo . Para este problema estoy usando la conocida biblioteca de python – sklearn . Hay muchos iteradores de validación cruzada en esta biblioteca. También hay varios iteradores para definir la validación cruzada. El problema […]

Validación cruzada personalizada split sklearn

Estoy intentando dividir un conjunto de datos para validación cruzada y GridSearch en sklearn. Quiero definir mi propia división, pero GridSearch solo toma los métodos integrados de validación cruzada. Sin embargo, no puedo usar el método de validación cruzada integrado porque necesito que ciertos grupos de ejemplos estén en el mismo pliegue. Entonces, si tengo […]

SKLearn validación cruzada: ¿Cómo pasar información sobre ejemplos de veces a mi función de anotador?

Estoy intentando crear una función de puntuación personalizada para la validación cruzada de mi modelo (clasificación binaria) en scikit-learn (Python). Algunos ejemplos de mis datos de prueba en bruto: Source Feature1 Feature2 Feature3 123 0.1 0.2 0.3 123 0.4 0.5 0.6 456 0.7 0.8 0.9 Suponiendo que cualquier pliegue puede contener múltiples ejemplos de prueba […]

Scikit-learn, GroupKFold con barajando grupos?

Estaba usando StratifiedKFold de scikit-learn, pero ahora necesito ver también los “grupos”. Hay una buena función GroupKFold, pero mis datos dependen mucho del tiempo. Tan similar como en la ayuda, es decir, el número de semanas es el índice de agrupación. Pero cada semana debe ser de una sola vez. Supongamos que necesito 10 pliegues. […]

Diferencia entre usar train_test_split y cross_val_score en sklearn.cross_validation

Tengo una matriz con 20 columnas. La última columna son 0/1 tags. El enlace a los datos está aquí . Estoy intentando ejecutar un bosque aleatorio en el conjunto de datos, usando validación cruzada. Yo uso dos métodos para hacer esto: utilizando sklearn.cross_validation.cross_val_score utilizando sklearn.cross_validation.train_test_split Estoy obteniendo resultados diferentes cuando hago lo que creo que […]

Utilizando estimaciones de statsmodel con la validación cruzada de scikit-learn, ¿es posible?

Publiqué esta pregunta en el foro de validación cruzada y luego me di cuenta de que podría encontrar la audiencia adecuada en Stackoverlfow. Estoy buscando una forma en la que pueda usar el objeto de fit (resultado) que se obtiene de python statsmodel para ingresar al cross_val_score del método scikit-learn cross_validation? El enlace adjunto sugiere […]