Articles of scikit learn

Error al importar sklearn

Versión de Python: 3.5.2 Comencé con el aprendizaje automático y otras cosas … Así que instalé sklearn y algunos otros paquetes desde pip. Todos se pudieron instalar con éxito, excepto Sklearn, así que descargué la rueda y la instalé desde aquí . Se instaló correctamente, pero cuando intenté importarlo en el orden para verificar la […]

¿Cómo se puede crear una matriz de diseño de interacción a partir de variables categóricas?

Vengo principalmente de trabajar en R para el modelado estadístico / aprendizaje automático y busco mejorar mis habilidades en Python. Me pregunto cuál es la mejor manera de crear una matriz de diseño de interacciones categóricas (en grado arbitrario) en python. Un ejemplo de juguete: import pandas as pd from urllib import urlopen page = […]

Pipeline: clasificadores múltiples?

Leí el siguiente ejemplo en Pipelines y GridSearchCV en Python: http://www.davidsbatista.net/blog/2017/04/01/document_classification/ Regresión logística: pipeline = Pipeline([ (‘tfidf’, TfidfVectorizer(stop_words=stop_words)), (‘clf’, OneVsRestClassifier(LogisticRegression(solver=’sag’)), ]) parameters = { ‘tfidf__max_df’: (0.25, 0.5, 0.75), ‘tfidf__ngram_range’: [(1, 1), (1, 2), (1, 3)], “clf__estimator__C”: [0.01, 0.1, 1], “clf__estimator__class_weight”: [‘balanced’, None], } SVM: pipeline = Pipeline([ (‘tfidf’, TfidfVectorizer(stop_words=stop_words)), (‘clf’, OneVsRestClassifier(LinearSVC()), ]) parameters = { […]

NaNs apareciendo de repente para sklearn KFolds

Estoy tratando de ejecutar la validación cruzada en mi conjunto de datos. Los datos parecen estar limpios, pero luego, cuando bash ejecutarlos, algunos de mis datos son reemplazados por NaNs. No estoy seguro de por qué. Alguien ha visto esto antes? y, X = np.ravel(df_test[‘labels’]), df_test[[‘variation’, ‘length’, ‘tempo’]] X_train, X_test, y_train, y_test = cv.train_test_split(X,y,test_size=.30, random_state=4444) […]

Trazar los clústeres de KMeans y clasificación para datos unidimensionales

Estoy utilizando KMeans para agrupar los tres conjuntos de datos de series de tiempo con diferentes caracteres. Por razones de reproducibilidad, estoy compartiendo los datos aquí . Aqui esta mi codigo import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans protocols = {} types = {“data1”: “data1.csv”, “data2”: “data2.csv”, “data3”: “data3.csv”} for […]

¿Necesito escalar los datos de prueba y la variable dependiente en los datos del tren?

Soy nuevo en el concepto de escalar una función en Aprendizaje automático, leí que la escala será útil cuando un rango de características es muy alto en comparación con otras características. Pero si elijo escalar los datos de entrenamiento entonces: ¿Puedo escalar esa característica que tiene un rango alto? Si escala la X completa de […]

ValueError: desconocido no es compatible con sklearn.RFECV

Estaba tratando de reducir el número de funciones realmente relevantes para mi clasificador utilizando rfecv. Este es el código que he escrito. import sklearn import pandas as p import numpy as np import scipy as sp import pylab as pl from sklearn import linear_model, cross_validation, metrics from sklearn.svm import SVC from sklearn.feature_selection import RFECV from […]

Se encontró una matriz con 0 muestra (s) (forma = (0, 40)) mientras que se requiere un mínimo de 1

Estoy probando un progtwig de predicción simple con Python 2.7, sklearn 0.17.1, numpy 1.11.0. Obtuve una matriz con las características del modelo LDA, y ahora quiero crear RandomForestClassifier para predecir los resultados por las posibilidades. Mi código es: maxlen = 40 props = [] for doc in corpus: topics = model.get_document_topics(doc) tprops = [0] * […]

Scikit aprender GridSearchCV AUC performance

Estoy usando GridSearchCV para identificar el mejor conjunto de parámetros para un clasificador de bosque aleatorio. PARAMS = { ‘max_depth’: [8,None], ‘n_estimators’: [500,1000] } rf = RandomForestClassifier() clf = grid_search.GridSearchCV(estimator=rf, param_grid=PARAMS, scoring=’roc_auc’, cv=5, n_jobs=4) clf.fit(data, labels) donde los datos y las tags son, respectivamente, el conjunto de datos completo y las tags correspondientes. Ahora, comparé […]

¿Cómo puedo analizar una matriz de confusión?

Cuando imprimo la matriz de confusión de scikit-learn, recibo una matriz muy grande. Quiero analizar cuáles son los verdaderos positivos, los verdaderos negativos, etc. ¿Cómo puedo hacerlo? Así es como se ve mi matriz de confusión. Deseo entender esto mejor. [[4015 336 0 …, 0 0 2] [ 228 2704 0 …, 0 0 0] […]