Articles of validación cruzada

Búsqueda en cuadrícula y detención temprana mediante la validación cruzada con XGBoost en SciKit-Learn

Soy bastante nuevo en sci-kit learn y he estado tratando de sintonizar hiperactivamente XGBoost. Mi objective es utilizar la detención temprana y la búsqueda en cuadrícula para ajustar los parámetros del modelo y usar la detención temprana para controlar el número de árboles y evitar el sobreajuste. Como uso la validación cruzada para la búsqueda […]

diferencia entre StratifiedKFold y StratifiedShuffleSplit en sklearn

A partir del título me pregunto cuál es la diferencia entre StratifiedKFold con el parámetro shuffle = True StratifiedKFold(n_splits=10, shuffle=True, random_state=0) y Stratified ShuffleSplit StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=0) y cuál es la ventaja de usar StratifiedShuffleSplit

sklearn: validación cruzada definida por el usuario para datos de series de tiempo

Estoy tratando de resolver un problema de aprendizaje automático. Tengo un conjunto de datos específico con elementos de series de tiempo . Para este problema estoy usando la conocida biblioteca de python – sklearn . Hay muchos iteradores de validación cruzada en esta biblioteca. También hay varios iteradores para definir la validación cruzada. El problema […]

Validación cruzada personalizada split sklearn

Estoy intentando dividir un conjunto de datos para validación cruzada y GridSearch en sklearn. Quiero definir mi propia división, pero GridSearch solo toma los métodos integrados de validación cruzada. Sin embargo, no puedo usar el método de validación cruzada integrado porque necesito que ciertos grupos de ejemplos estén en el mismo pliegue. Entonces, si tengo […]

SKLearn validación cruzada: ¿Cómo pasar información sobre ejemplos de veces a mi función de anotador?

Estoy intentando crear una función de puntuación personalizada para la validación cruzada de mi modelo (clasificación binaria) en scikit-learn (Python). Algunos ejemplos de mis datos de prueba en bruto: Source Feature1 Feature2 Feature3 123 0.1 0.2 0.3 123 0.4 0.5 0.6 456 0.7 0.8 0.9 Suponiendo que cualquier pliegue puede contener múltiples ejemplos de prueba […]

Scikit-learn, GroupKFold con barajando grupos?

Estaba usando StratifiedKFold de scikit-learn, pero ahora necesito ver también los “grupos”. Hay una buena función GroupKFold, pero mis datos dependen mucho del tiempo. Tan similar como en la ayuda, es decir, el número de semanas es el índice de agrupación. Pero cada semana debe ser de una sola vez. Supongamos que necesito 10 pliegues. […]

Diferencia entre usar train_test_split y cross_val_score en sklearn.cross_validation

Tengo una matriz con 20 columnas. La última columna son 0/1 tags. El enlace a los datos está aquí . Estoy intentando ejecutar un bosque aleatorio en el conjunto de datos, usando validación cruzada. Yo uso dos métodos para hacer esto: utilizando sklearn.cross_validation.cross_val_score utilizando sklearn.cross_validation.train_test_split Estoy obteniendo resultados diferentes cuando hago lo que creo que […]

Utilizando estimaciones de statsmodel con la validación cruzada de scikit-learn, ¿es posible?

Publiqué esta pregunta en el foro de validación cruzada y luego me di cuenta de que podría encontrar la audiencia adecuada en Stackoverlfow. Estoy buscando una forma en la que pueda usar el objeto de fit (resultado) que se obtiene de python statsmodel para ingresar al cross_val_score del método scikit-learn cross_validation? El enlace adjunto sugiere […]

NaNs apareciendo de repente para sklearn KFolds

Estoy tratando de ejecutar la validación cruzada en mi conjunto de datos. Los datos parecen estar limpios, pero luego, cuando bash ejecutarlos, algunos de mis datos son reemplazados por NaNs. No estoy seguro de por qué. Alguien ha visto esto antes? y, X = np.ravel(df_test[‘labels’]), df_test[[‘variation’, ‘length’, ‘tempo’]] X_train, X_test, y_train, y_test = cv.train_test_split(X,y,test_size=.30, random_state=4444) […]

Alternar diferentes modelos en Pipeline para GridSearchCV

Quiero construir un Pipeline en sklearn y probar diferentes modelos usando GridSearchCV. Solo un ejemplo (por favor, no preste atención a qué modelos particulares se eligen): reg = LogisticRegression() proj1 = PCA(n_components=2) proj2 = MDS() proj3 = TSNE() pipe = [(‘proj’, proj1), (‘reg’ , reg)] pipe = Pipeline(pipe) param_grid = { ‘reg__c’: [0.01, 0.1, 1], […]