Articles of scikit learn

¿Es scikit-learn adecuado para tareas de big data?

Estoy trabajando en una tarea TREC que involucra el uso de técnicas de aprendizaje automático, donde el conjunto de datos consta de más de 5 terabytes de documentos web, de los cuales se planea extraer vectores de bolsa de palabras. scikit-learn tiene un buen conjunto de funcionalidades que parece ajustarse a mi necesidad, pero no […]

¿Cómo aplicar la estandarización a SVMs en scikit-learn?

Estoy usando la versión estable actual 0.13 de scikit-learn. Estoy aplicando un clasificador de vectores de soporte lineal a algunos datos utilizando la clase sklearn.svm.LinearSVC . En el capítulo sobre el preprocesamiento en la documentación de scikit-learn, he leído lo siguiente: Muchos elementos utilizados en la función objective de un algoritmo de aprendizaje (como el […]

entradas para nDCG en sklearn

No puedo entender el formato de entrada de sklearn nDcg: http://sklearn.apachecn.org/en/0.19.0/modules/generated/sklearn.metrics.ndcg_score.html Actualmente tengo el siguiente problema: tengo varias consultas para cada una de las cuales las probabilidades de clasificación se han calculado correctamente. Pero ahora el problema es calcular nDCG para el conjunto de pruebas para el que me gustaría usar el nDcg sklearn. El […]

Recuperar líneas de límite de decisión (formato de coordenadas x, y) del árbol de decisión de SKlearn

Estoy intentando crear un gráfico de superficie en una plataforma de visualización externa. Estoy trabajando con el conjunto de datos de iris que se muestra en la página de documentación del árbol de decisiones de sklearn . También estoy usando el mismo enfoque para crear mi gráfico de superficie de decisión. Sin embargo, mi objective […]

Obtener valores propios y vectores de sklearn PCA

¿Cómo puedo obtener los valores propios y los vectores propios de la aplicación PCA? from sklearn.decomposition import PCA clf=PCA(0.98,whiten=True) #converse 98% variance X_train=clf.fit_transform(X_train) X_test=clf.transform(X_test) No lo encuentro en los documentos . 1. No puedo “comprender” los diferentes resultados aquí. Editar : def pca_code(data): #raw_implementation var_per=.98 data-=np.mean(data, axis=0) data/=np.std(data, axis=0) cov_mat=np.cov(data, rowvar=False) evals, evecs = np.linalg.eigh(cov_mat) […]

Cómo utilizar el PCA de scikit-learn para reducir las funciones y saber qué funciones se descartan

Estoy intentando ejecutar un PCA en una matriz de dimensiones mxn donde m es el número de características y n el número de muestras. Supongamos que quiero conservar las características nf con la varianza máxima. Con scikit-learn puedo hacerlo de esta manera: from sklearn.decomposition import PCA nf = 100 pca = PCA(n_components=nf) # X is […]

Error al instalar scikit-learn

Al intentar instalar scikit-learn, aparece el siguiente error: Exception: Traceback (most recent call last): File “/usr/local/Cellar/python/2.7.9/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pip-6.0.8-py2.7.egg/pip/basecommand.py”, line 232, in main status = self.run(options, args) File “/usr/local/Cellar/python/2.7.9/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pip-6.0.8-py2.7.egg/pip/commands/install.py”, line 347, in run root=options.root_path, File “/usr/local/Cellar/python/2.7.9/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pip-6.0.8-py2.7.egg/pip/req/req_set.py”, line 543, in install requirement.uninstall(auto_confirm=True) File “/usr/local/Cellar/python/2.7.9/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pip-6.0.8-py2.7.egg/pip/req/req_install.py”, line 667, in uninstall paths_to_remove.remove(auto_confirm) File “/usr/local/Cellar/python/2.7.9/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pip-6.0.8-py2.7.egg/pip/req/req_uninstall.py”, line 126, in remove renames(path, new_path) File “/usr/local/Cellar/python/2.7.9/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/pip-6.0.8-py2.7.egg/pip/utils/__init__.py”, […]

¿Por qué CalibratedClassifierCV tiene un rendimiento inferior al de un clasificador directo?

Me di cuenta de que el nuevo CalibratedClassifierCV sklearn parece tener un rendimiento inferior al base_estimator directo cuando el base_estimator es GradientBoostingClassifer (no he probado otros clasificadores). Curiosamente, si los parámetros de make_classification son: n_features = 10 n_informative = 3 n_classes = 2 entonces el CalibratedClassifierCV parece ser el que supera ligeramente (evaluación de pérdida […]

¿Cómo usar sklearn fit_transform con pandas y devolver el dataframe en lugar de una matriz numpy?

Quiero aplicar la escala (utilizando StandardScaler () de sklearn.preprocessing) a un dataframe de pandas. El siguiente código devuelve una matriz numpy, por lo que pierdo todos los nombres e índices de columna. Esto no es lo que quiero. features = df[[“col1”, “col2”, “col3”, “col4″]] autoscaler = StandardScaler() features = autoscaler.fit_transform(features) Una “solución” que encontré en […]

Error del Regresor Forestal Aleatorio de Python Scikit

Estoy tratando de cargar el entrenamiento y los datos de prueba de un csv, ejecutar el regresor de bosque aleatorio en scikit / sklearn, y luego predecir la salida del archivo de prueba. El archivo TrainLoanData.csv contiene 5 columnas; la primera columna es la salida y las siguientes 4 columnas son las características. El TestLoanData.csv […]