Articles of validación cruzada

¿Cuál es la diferencia entre cross_val_score con scoring = ‘roc_auc’ y roc_auc_score?

Estoy confundido acerca de la diferencia entre la métrica de puntuación cross_val_score ‘roc_auc’ y el roc_auc_score que solo puedo importar y llamar directamente. La documentación ( http://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter ) indica que especificar scoring = ‘roc_auc’ usará el sklearn.metrics.roc_auc_score. Sin embargo, cuando implemento GridSearchCV o cross_val_score con scoring = ‘roc_auc’, recibo números muy diferentes que cuando llamo […]

Cómo obtener el mejor estimador en GridSearchCV (Scikit clasificador de bosque aleatorio)

Estoy ejecutando GridSearch CV para optimizar los parámetros de un clasificador en scikit. Una vez que termine, me gustaría saber qué parámetros fueron elegidos como los mejores. Cada vez que lo hago, obtengo un AttributeError: ‘RandomForestClassifier’ object has no attribute ‘best_estimator_’ , y no puedo decir por qué, ya que parece ser un atributo legítimo […]

ValueError: no puede tener un número de splits n_splits = 3 mayor que el número de muestras: 1

Estoy probando este modelo de entrenamiento usando train_test_split y un regresor de árbol de decisión: import sklearn from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeRegressor from sklearn.model_selection import cross_val_score # TODO: Make a copy of the DataFrame, using the ‘drop’ function to drop the given feature new_data = samples.drop(‘Fresh’, 1) # TODO: Split the data […]

Cómo calcular la importancia de la característica en cada modelo de validación cruzada en sklearn

Estoy usando RandomForestClassifier() con 10 fold cross validation siguiente manera. clf=RandomForestClassifier(random_state = 42, class_weight=”balanced”) k_fold = StratifiedKFold(n_splits=10, shuffle=True, random_state=42) accuracy = cross_val_score(clf, X, y, cv=k_fold, scoring = ‘accuracy’) print(accuracy.mean()) Quiero identificar las características importantes en mi espacio de características. Parece ser sencillo obtener la importancia de la característica para la clasificación individual de la siguiente […]

Scikit-learn TypeError: si no se especifica una puntuación, el estimador aprobado debe tener un método de ‘puntuación’

He creado un modelo personalizado en python usando scikit-learn, y quiero usar la validación cruzada. La clase para el modelo se define de la siguiente manera: class MultiLabelEnsemble: ”’ MultiLabelEnsemble(predictorInstance, balance=False) Like OneVsRestClassifier: Wrapping class to train multiple models when several objectives are given as target values. Its predictor may be an ensemble. This class […]

k vecinos más cercanos con validación cruzada para puntuación de precisión y matriz de confusión

Tengo los siguientes datos donde para cada columna, las filas con números son la entrada y la letra es la salida. A,A,A,B,B,B -0.979090189,0.338819904,-0.253746508,0.213454999,-0.580601104,-0.441683968 -0.48395313,0.436456904,-1.427424032,-0.107093825,0.320813402,0.060866105 -1.098818173,-0.999161692,-1.371721698,-1.057324962,-1.161752652,-0.854872591 -1.53191442,-1.465454248,-1.350414216,-1.732518018,-1.674040715,-1.561568496 2.522796162,2.498153298,3.11756171,2.125738509,3.003929536,2.514411247 -0.060161596,-0.487513844,-1.083513761,-0.908023322,-1.047536921,-0.48276759 0.241962669,0.181365373,0.174042637,-0.048013217,-0.177434916,0.42738621 -0.603856395,-1.020531402,-1.091134021,-0.863008165,-0.683233589,-0.849059931 -0.626159165,-0.348144322,-0.518640038,-0.394482485,-0.249935646,-0.543947259 -1.407263942,-1.387660115,-1.612988118,-1.141282747,-0.944745366,-1.030944216 -0.682567673,-0.043613473,-0.105679403,0.135431139,0.059104888,-0.132060832 -1.10107164,-1.030047313,-1.239075022,-0.651818656,-1.043589073,-0.765992541 Estoy tratando de realizar KNN LOOCV para obtener el puntaje de precisión y la matriz de confusión. from sklearn.neighbors import KNeighborsClassifier […]

validación cruzada de scikit-learn, valores negativos con error cuadrático medio

Cuando uso el siguiente código con la matriz de datos X de tamaño (952,144) y el vector de salida y de tamaño (952), la métrica mean_squared_error devuelve valores negativos, lo cual es inesperado. ¿Tiene alguna idea? from sklearn.svm import SVR from sklearn import cross_validation as CV reg = SVR(C=1., epsilon=0.1, kernel=’rbf’) scores = CV.cross_val_score(reg, X, […]

¿Validación cruzada para Sklearn 0.20+?

Estoy tratando de hacer una validación cruzada y me encuentro con un error que dice: ‘Encontré variables de entrada con números inconsistentes de muestras: [18, 1]’ Estoy usando diferentes columnas en un dataframe de pandas (df) como características, con la última columna como etiqueta. Esto se deriva del repository de aprendizaje automático para UC Irvine. […]

¿GridSearchCV realiza validación cruzada?

Actualmente estoy trabajando en un problema que compara el rendimiento de tres algoritmos de aprendizaje automático en el mismo conjunto de datos. Dividí el conjunto de datos en 70/30 conjuntos de entrenamiento / prueba y luego realicé la búsqueda en la cuadrícula de los mejores parámetros de cada algoritmo utilizando GridSearchCV y X_train, y_train . […]

Modele ayuda usando Scikit-learn cuando use GridSearch

Como parte del proyecto de Enron, construyó el modelo adjunto, a continuación se muestra el resumen de los pasos, A continuación el modelo da puntuaciones altamente perfectas cv = StratifiedShuffleSplit(n_splits = 100, test_size = 0.2, random_state = 42) gcv = GridSearchCV(pipe, clf_params,cv=cv) gcv.fit(features,labels) —> with the full dataset for train_ind, test_ind in cv.split(features,labels): x_train, x_test […]