Articles of scikit learn

Importancia de la característica con XGBClassifier

Es de esperar que esté leyendo esto mal, pero en la documentación de la biblioteca de XGBoost, hay una nota de cómo extraer los atributos de importancia de las características utilizando feature_importances_ como el bosque aleatorio de sklearn. Sin embargo, por alguna razón, sigo recibiendo este error: AttributeError: ‘XGBClassifier’ object has no attribute ‘feature_importances_’ Mi […]

Cómo obtener instancias reproducibles pero distintas de GroupKFold

En la fuente GroupKFold , el random_state se establece en None def __init__(self, n_splits=3): super(GroupKFold, self).__init__(n_splits, shuffle=False, random_state=None) Por lo tanto, cuando se ejecuta varias veces (código de aquí ) import numpy as np from sklearn.model_selection import GroupKFold for i in range(0,10): X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]]) y = np.array([1, […]

Descenso por lotes con scikit learn (sklearn)

Estoy jugando con un clasificador de Regresión logística uno-contra-todos usando Scikit-Learn (sklearn). Tengo un conjunto de datos grande que es demasiado lento para ejecutarlo todo de una vez; También me gustaría estudiar la curva de aprendizaje a medida que avanza la formación. Me gustaría usar el descenso de gradiente por lotes para entrenar a mi […]

Sklearn LogisticRegression sin regularización.

La clase de regresión logística en sklearn viene con la regularización de L1 y L2. ¿Cómo puedo desactivar la regularización para obtener el ajuste logístico “sin formato” como en glmfit en Matlab? Creo que puedo establecer C = número grande pero no creo que sea sabio. vea para más detalles la documentación http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

Los trabajos paralelos no terminan en GridSearchCV de scikit-learn

En la siguiente secuencia de comandos, encuentro que los trabajos iniciados por GridSearchCV parecen bloquearse. import json import pandas as pd import numpy as np import unicodedata import re from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from sklearn.decomposition import TruncatedSVD from sklearn.linear_model import SGDClassifier import sklearn.cross_validation as CV from sklearn.grid_search […]

Combinando modelos de bosques al azar en scikit learn.

Tengo dos modelos de RandomForestClassifier, y me gustaría combinarlos en un metamodelo. Ambos fueron entrenados usando datos similares, pero diferentes. ¿Cómo puedo hacer esto? rf1 #this is my first fitted RandomForestClassifier object, with 250 trees rf2 #this is my second fitted RandomForestClassifier object, also with 250 trees Quiero crear big_rf con todos los árboles combinados […]

scikit learn output metrics.classification_report en formato CSV / tab-delimited

Estoy haciendo una clasificación de texto multiclase en Scikit-Learn. El conjunto de datos está siendo entrenado usando el clasificador Multinomial Naive Bayes que tiene cientos de tags. Aquí hay un extracto del script de Scikit Learn para ajustar el modelo MNB from __future__ import print_function # Read **`file.csv`** into a pandas DataFrame import pandas as […]

¿Cómo calculo una matriz de co-ocurrencia palabra-palabra con sklearn?

Estoy buscando un módulo en sklearn que le permita derivar la matriz de co-ocurrencia palabra-palabra. Puedo obtener la matriz del término del documento, pero no estoy seguro de cómo obtener una matriz palabra-palabra de co-ocurrencias.

TfidfVectorizer en scikit-learn: ValueError: np.nan no es un documento válido

Estoy usando TfidfVectorizer de scikit-learn para realizar una extracción de características a partir de datos de texto. Tengo un archivo CSV con una Puntuación (puede ser +1 o -1) y una Revisión (texto). Metí estos datos en un DataFrame para poder ejecutar el Vectorizer. Este es mi código: import pandas as pd import numpy as […]

TFIDF para grandes conjuntos de datos

Tengo un corpus que tiene alrededor de 8 millones de artículos de noticias, necesito obtener la representación de TFIDF de ellos como una matriz dispersa. He podido hacer eso usando scikit-learn para un número relativamente menor de muestras, pero creo que no se puede usar para un conjunto de datos tan grande, ya que carga […]