Articles of scikit learn

Escalamiento multidimensional con valores perdidos en la matriz de disimilitud.

Tengo una matriz de disimilitud en la que me gustaría realizar escalas multidimensionales (MDS) utilizando la función sklearn.manifold.MDS . La diferencia entre algunos elementos en esta matriz no es significativa y, por lo tanto, me pregunto si hay una manera de ejecutar MDS en una matriz dispersa o en una matriz con valores perdidos. De […]

Error paralelo con GridSearchCV, funciona bien con otros métodos

Me encuentro con los siguientes problemas al usar GridSearchCV: me da un error paralelo al usar n_jobs > 1 . Al mismo tiempo, n_jobs > 1 funciona bien con modelos únicos como RadonmForestClassifier. A continuación se muestra un ejemplo de trabajo simple que muestra los errores: train = np.random.rand(100,10) targ = np.random.randint(0,2,100) clf = ensemble.RandomForestClassifier(n_jobs […]

Scikit-Learn Divisiones cruzadas personalizadas para datos de series de tiempo

Me gustaría usar GridSearchCV de scikit-learn para determinar algunos parámetros para un modelo de bosque aleatorio. Mis datos dependen del tiempo y se parecen a import pandas as pd train = pd.DataFrame({‘date’: pd.DatetimeIndex([‘2012-1-1’, ‘2012-9-30’, ‘2013-4-3’, ‘2014-8-16’, ‘2015-3-20’, ‘2015-6-30’]), ‘feature1’: [1.2, 3.3, 2.7, 4.0, 8.2, 6.5], ‘feature2’: [4, 4, 10, 3, 10, 9], ‘target’: [1,2,1,3,2,2]}) >>> […]

Obtenga el nombre del documento en la matriz scikit-learn tf-idf

He creado una matriz tf-idf pero ahora quiero recuperar las 2 palabras principales para cada documento. Quiero pasar la identificación del documento y debería darme las 2 palabras principales. En este momento, tengo estos datos de muestra: from sklearn.feature_extraction.text import TfidfVectorizer d = {‘doc1′:”this is the first document”,’doc2’:”it is a sunny day”} ### corpus test_v […]

¿Cuántas características puede manejar scikit-learn?

Tengo un archivo csv de [66k, 56k] tamaño (filas, columnas). Es una matriz dispersa. Sé que numpy puede manejar ese tamaño de una matriz. Me gustaría saber, de acuerdo con la experiencia de todos, ¿cuántas características pueden manejar cómodamente los algoritmos de scikit-learn?

Cómo explorar un árbol de decisiones construido usando scikit learn

Estoy construyendo un árbol de decisiones usando clf = tree.DecisionTreeClassifier() clf = clf.fit(X_train, Y_train) Todo esto funciona bien. Sin embargo, ¿cómo exploro el árbol de decisiones? Por ejemplo, ¿cómo encuentro qué entradas de X_train aparecen en una hoja en particular?

Scikit-learn GridSearch que da el error “ValueError: no se admite el formato multiclase”

Estoy tratando de usar GridSearch para la estimación de parámetros de LinearSVC () de la siguiente manera: clf_SVM = LinearSVC() params = { ‘C’: [0.5, 1.0, 1.5], ‘tol’: [1e-3, 1e-4, 1e-5], ‘multi_class’: [‘ovr’, ‘crammer_singer’], } gs = GridSearchCV(clf_SVM, params, cv=5, scoring=’roc_auc’) gs.fit(corpus1, y) corpus1 tiene forma (1726, 7001) e y tiene forma (1726,) Esta es […]

¿Cómo pasar un parámetro a solo una parte de un objeto de canalización en scikit learn?

Necesito pasar un parámetro, sample_weight , a mi RandomForestClassifier así: X = np.array([[2.0, 2.0, 1.0, 0.0, 1.0, 3.0, 3.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 5.0, 3.0, 2.0, ‘0’], [15.0, 2.0, 5.0, 5.0, 0.466666666667, 4.0, 3.0, 2.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, […]

Proceso Gaussiano scikit-learn – Excepción

Quiero usar los procesos gaussianos para resolver una tarea de regresión. Mi información es la siguiente: cada vector X tiene una longitud de 37, y cada vector Y tiene una longitud de 8. Estoy usando el paquete sklearn en Python pero tratar de usar procesos gaussianos conduce a una Exception : from sklearn import gaussian_process […]

diferencia entre StratifiedKFold y StratifiedShuffleSplit en sklearn

A partir del título me pregunto cuál es la diferencia entre StratifiedKFold con el parámetro shuffle = True StratifiedKFold(n_splits=10, shuffle=True, random_state=0) y Stratified ShuffleSplit StratifiedShuffleSplit(n_splits=10, test_size=’default’, train_size=None, random_state=0) y cuál es la ventaja de usar StratifiedShuffleSplit