Articles of scikit learn

Preproceso de archivos de datos grandes con características categóricas y continuas

Primero, gracias por leerme y muchas gracias si puedes dar alguna pista que me ayude a resolver esto. Como soy nuevo en Scikit-learn, no dude en brindarme algún consejo que pueda ayudarme a mejorar el proceso y hacerlo más profesional. Mi objective es clasificar los datos entre dos categorías. Me gustaría encontrar una solución que […]

¿Hay alguna forma de utilizar la selección recursiva de características con modelos no lineales con scikit-learn?

Estoy tratando de usar SVR con un kernel rbf (obviamente) en un problema de regresión. Mi conjunto de datos tiene algo así como 300 características. Me gustaría seleccionar características más relevantes y usar algo como la función secuencial de matlab que probaría cada combinación (o de todos modos comenzando con pocas variables y agregando variables […]

Manejo de características categóricas utilizando scikit-learn

¿Qué estoy haciendo? Estoy resolviendo un problema de clasificación utilizando bosques aleatorios. Tengo un conjunto de cadenas de una longitud fija (10 caracteres de longitud) que representan secuencias de ADN. El alfabeto de ADN consta de 4 letras, a saber, A , C , G , T Aquí hay una muestra de mis datos en […]

TFIDF Vectorizador dando error

Estoy tratando de llevar a cabo la clasificación de texto para ciertos archivos utilizando TFIDF y SVM. Las características deben ser seleccionadas 3 palabras a la vez. Mis archivos de datos ya están en el formato: angel eyes tiene, cada uno para, por su cuenta. No hay palabras para detener y ninguna puede hacer lemming […]

Guardar un vector de características para nuevos datos en scikit-learn

Para crear un algoritmo de aprendizaje automático, hice una lista de diccionarios y usé el DictVectorizer de scikit para hacer un vector de características para cada elemento. Luego creé un modelo SVM a partir de un conjunto de datos que usaba parte de los datos para la capacitación y luego probaba el modelo en el […]

Relación entre el ancho de banda de KDE 2D en sklearn vs ancho de banda en scipy

Estoy intentando comparar el rendimiento de sklearn.neighbors.KernelDensity versus scipy.stats.gaussian_kde para una matriz bidimensional. De este artículo veo que los anchos de banda (bw) se tratan de manera diferente en cada función. El artículo da una receta para establecer el valor correcto de bw en scipy por lo que será equivalente al utilizado en sklearn . […]

No se puede importar sklearn.model_selection en scikit-learn

Estoy tratando de importar sklearn.model_selection . He intentado reinstalar scikit-learn y anaconda, todavía no funciona. Aquí está el mensaje de error que tengo: ImportError Traceback (most recent call last) in () 4 get_ipython().magic(u’matplotlib inline’) 5 # from sklearn.model_selection import train_test_split —-> 6 import sklearn.model_selection /Users/Lu/anaconda/lib/python2.7/site-packages/sklearn/model_selection/__init__.py in () —-> 1 from ._split import BaseCrossValidator 2 from […]

Cómo usar warm_start

Me gustaría usar el parámetro warm_start para agregar datos de entrenamiento a mi clasificador de bosque aleatorio. Esperaba que fuera usado así: clf = RandomForestClassifier(…) clf.fit(get_data()) clf.fit(get_more_data(), warm_start=True) Pero el parámetro warm_start es un parámetro constructor. Entonces, ¿hago algo como esto? clf = RandomForestClassifier() clf.fit(get_data()) clf = RandomForestClassifier (warm_start=True) clf.fit(get_more_data) Eso no tiene sentido. ¿La […]

sklearn “numpy.dtype tiene el tamaño incorrecto, intente recomstackr” en pycharm y terminal

Obtuve “numpy.dtype tiene el tamaño incorrecto, intente recomstackr” en pycharm y terminal al comstackr el aprendizaje de Sci-kit. He actualizado todos los paquetes (numpy, scikit a la última), nada funciona. La versión de Python es 2.7. Por favor ayuda. ¡Apreciar! checking for nltk Traceback (most recent call last): File “startup.py”, line 6, in import nltk […]

¿Cómo configurar palabras de parada personalizadas para sklearn CountVectorizer?

Estoy intentando ejecutar LDA (Asignación de Dirichlet Latente) en un conjunto de datos de texto que no está en inglés. En el tutorial de sklearn, hay una parte en la que se cuenta la frecuencia de los términos de las palabras para alimentar el LDA: tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=n_features, stop_words=’english’) Que tiene función de […]