Articles of validación cruzada

SKLearn validación cruzada: ¿Cómo pasar información sobre ejemplos de veces a mi función de anotador?

Estoy intentando crear una función de puntuación personalizada para la validación cruzada de mi modelo (clasificación binaria) en scikit-learn (Python). Algunos ejemplos de mis datos de prueba en bruto: Source Feature1 Feature2 Feature3 123 0.1 0.2 0.3 123 0.4 0.5 0.6 456 0.7 0.8 0.9 Suponiendo que cualquier pliegue puede contener múltiples ejemplos de prueba […]

Scikit-learn, GroupKFold con barajando grupos?

Estaba usando StratifiedKFold de scikit-learn, pero ahora necesito ver también los “grupos”. Hay una buena función GroupKFold, pero mis datos dependen mucho del tiempo. Tan similar como en la ayuda, es decir, el número de semanas es el índice de agrupación. Pero cada semana debe ser de una sola vez. Supongamos que necesito 10 pliegues. […]

Diferencia entre usar train_test_split y cross_val_score en sklearn.cross_validation

Tengo una matriz con 20 columnas. La última columna son 0/1 tags. El enlace a los datos está aquí . Estoy intentando ejecutar un bosque aleatorio en el conjunto de datos, usando validación cruzada. Yo uso dos métodos para hacer esto: utilizando sklearn.cross_validation.cross_val_score utilizando sklearn.cross_validation.train_test_split Estoy obteniendo resultados diferentes cuando hago lo que creo que […]

Utilizando estimaciones de statsmodel con la validación cruzada de scikit-learn, ¿es posible?

Publiqué esta pregunta en el foro de validación cruzada y luego me di cuenta de que podría encontrar la audiencia adecuada en Stackoverlfow. Estoy buscando una forma en la que pueda usar el objeto de fit (resultado) que se obtiene de python statsmodel para ingresar al cross_val_score del método scikit-learn cross_validation? El enlace adjunto sugiere […]

NaNs apareciendo de repente para sklearn KFolds

Estoy tratando de ejecutar la validación cruzada en mi conjunto de datos. Los datos parecen estar limpios, pero luego, cuando bash ejecutarlos, algunos de mis datos son reemplazados por NaNs. No estoy seguro de por qué. Alguien ha visto esto antes? y, X = np.ravel(df_test[‘labels’]), df_test[[‘variation’, ‘length’, ‘tempo’]] X_train, X_test, y_train, y_test = cv.train_test_split(X,y,test_size=.30, random_state=4444) […]

Alternar diferentes modelos en Pipeline para GridSearchCV

Quiero construir un Pipeline en sklearn y probar diferentes modelos usando GridSearchCV. Solo un ejemplo (por favor, no preste atención a qué modelos particulares se eligen): reg = LogisticRegression() proj1 = PCA(n_components=2) proj2 = MDS() proj3 = TSNE() pipe = [(‘proj’, proj1), (‘reg’ , reg)] pipe = Pipeline(pipe) param_grid = { ‘reg__c’: [0.01, 0.1, 1], […]

Uso de un conjunto de validación explícito (predefinido) para la búsqueda en cuadrícula con sklearn

Tengo un conjunto de datos, que previamente se ha dividido en 3 conjuntos: entrenamiento, validación y prueba. Estos conjuntos deben usarse como se indica para poder comparar el rendimiento en diferentes algoritmos. Ahora me gustaría optimizar los parámetros de mi SVM usando el conjunto de validación. Sin embargo, no puedo encontrar cómo ingresar el conjunto […]

Usando sklearn cross_val_score y kfolds para ajustar y ayudar a predecir el modelo

Estoy tratando de entender el uso de la validación cruzada de kfolds desde el módulo sklearn python. Entiendo el flujo básico: instanciar un modelo, por ejemplo, model = LogisticRegression() ajuste del modelo, por ejemplo, model.fit(xtrain, ytrain) predicción, por ejemplo, model.predict(ytest) use, por ejemplo, la puntuación de valor cruzado para probar la precisión del modelo ajustado […]

Cómo utilizar la validación cruzada de un k-fold en scikit con el clasificador de bayes y NLTK ingenuo

Tengo un pequeño corpus y quiero calcular la precisión del ingenuo clasificador de Bayes usando una validación cruzada de 10 veces, ¿cómo puedo hacerlo?

Transformadores personalizados de Sklearn: diferencia entre el uso de FunctionTransformer y la subclasificación de TransformerMixin

Para realizar un CV adecuado, es recomendable utilizar tuberías para que se puedan aplicar las mismas transformaciones a cada pliegue en el CV. Puedo definir transformaciones personalizadas utilizando sklearn.preprocessing.FunctionTrasformer o subclassing sklearn.base.TransformerMixin . ¿Cuál es el enfoque recomendado? ¿Por qué?