Soy bastante nuevo en sci-kit learn y he estado tratando de sintonizar hiperactivamente XGBoost. Mi objective es utilizar la detención temprana y la búsqueda en cuadrícula para ajustar los parámetros del modelo y usar la detención temprana para controlar el número de árboles y evitar el sobreajuste. Como uso la validación cruzada para la búsqueda […]
A partir del título me pregunto cuál es la diferencia entre StratifiedKFold con el parámetro shuffle = True StratifiedKFold(n_splits=10, shuffle=True, random_state=0) y Stratified ShuffleSplit StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=0) y cuál es la ventaja de usar StratifiedShuffleSplit
Estoy tratando de resolver un problema de aprendizaje automático. Tengo un conjunto de datos específico con elementos de series de tiempo . Para este problema estoy usando la conocida biblioteca de python – sklearn . Hay muchos iteradores de validación cruzada en esta biblioteca. También hay varios iteradores para definir la validación cruzada. El problema […]
Estoy intentando dividir un conjunto de datos para validación cruzada y GridSearch en sklearn. Quiero definir mi propia división, pero GridSearch solo toma los métodos integrados de validación cruzada. Sin embargo, no puedo usar el método de validación cruzada integrado porque necesito que ciertos grupos de ejemplos estén en el mismo pliegue. Entonces, si tengo […]
Estoy intentando crear una función de puntuación personalizada para la validación cruzada de mi modelo (clasificación binaria) en scikit-learn (Python). Algunos ejemplos de mis datos de prueba en bruto: Source Feature1 Feature2 Feature3 123 0.1 0.2 0.3 123 0.4 0.5 0.6 456 0.7 0.8 0.9 Suponiendo que cualquier pliegue puede contener múltiples ejemplos de prueba […]
Estaba usando StratifiedKFold de scikit-learn, pero ahora necesito ver también los “grupos”. Hay una buena función GroupKFold, pero mis datos dependen mucho del tiempo. Tan similar como en la ayuda, es decir, el número de semanas es el índice de agrupación. Pero cada semana debe ser de una sola vez. Supongamos que necesito 10 pliegues. […]
Tengo una matriz con 20 columnas. La última columna son 0/1 tags. El enlace a los datos está aquí . Estoy intentando ejecutar un bosque aleatorio en el conjunto de datos, usando validación cruzada. Yo uso dos métodos para hacer esto: utilizando sklearn.cross_validation.cross_val_score utilizando sklearn.cross_validation.train_test_split Estoy obteniendo resultados diferentes cuando hago lo que creo que […]
Publiqué esta pregunta en el foro de validación cruzada y luego me di cuenta de que podría encontrar la audiencia adecuada en Stackoverlfow. Estoy buscando una forma en la que pueda usar el objeto de fit (resultado) que se obtiene de python statsmodel para ingresar al cross_val_score del método scikit-learn cross_validation? El enlace adjunto sugiere […]
Estoy tratando de ejecutar la validación cruzada en mi conjunto de datos. Los datos parecen estar limpios, pero luego, cuando bash ejecutarlos, algunos de mis datos son reemplazados por NaNs. No estoy seguro de por qué. Alguien ha visto esto antes? y, X = np.ravel(df_test[‘labels’]), df_test[[‘variation’, ‘length’, ‘tempo’]] X_train, X_test, y_train, y_test = cv.train_test_split(X,y,test_size=.30, random_state=4444) […]
Quiero construir un Pipeline en sklearn y probar diferentes modelos usando GridSearchCV. Solo un ejemplo (por favor, no preste atención a qué modelos particulares se eligen): reg = LogisticRegression() proj1 = PCA(n_components=2) proj2 = MDS() proj3 = TSNE() pipe = [(‘proj’, proj1), (‘reg’ , reg)] pipe = Pipeline(pipe) param_grid = { ‘reg__c’: [0.01, 0.1, 1], […]