Articles of aprendizaje de máquina

Umbrales en roc_curve en scikit Learn

Me refiero al siguiente enlace y muestra, y publico el diagtwig de la ttwig de esta página donde estoy confundido. Mi confusión es que solo hay 4 umbrales, pero parece que la curva roc tiene muchos puntos de datos (> 4 puntos de datos), y se pregunta cómo roc_curve funciona subyacente para encontrar más puntos […]

Python SKLearn: Probabilidades de regresión logística

Estoy utilizando el módulo SKLearn de Python para realizar una regresión logística. Tengo un vector variable dependiente Y (tomando valores de 1 de las clases M) y una matriz variable independiente X (con N características). Mi codigo es LR = LogisticRegression() LR.fit(X,np.resize(Y,(len(Y)))) Mi pregunta es, ¿ LR.intercept_ representan LR.coef_ y LR.intercept_ ? Inicialmente pensé que […]

Agregar una variable a la capa densa CNN de Keras / TensorFlow

Me preguntaba si es posible agregar una variable a la densa capa de una neural network convolucional (así como las conexiones de las capas convolucionales anteriores, habría un conjunto de características adicionales que podrían usarse con fines discriminatorios). Si esto es posible, ¿puede alguien indicarme un ejemplo / documentación que explique cómo hacerlo? Espero usar […]

Submuestreo + clasificación utilizando scikit-learn

Estoy usando Scikit-learn para una tarea de clasificación binaria … y tengo: Clase 0: con 200 observaciones Clase 1: con 50 observaciones Y porque tengo datos desbalanceados … quiero tomar una submuestra aleatoria de la clase mayoritaria en la que el número de observaciones será el mismo que la clase minoritaria y quiero usar el […]

Sklearn LinearSVC – X tiene 1 características por muestra; esperando 5

Estoy tratando de predecir la clase de una matriz de prueba, pero obtengo el siguiente error, junto con el seguimiento de la stack: Traceback (most recent call last): File “/home/radu/PycharmProjects/Recommender/Temporary/classify_dict_test.py”, line 24, in print classifier.predict(test) File “/home/radu/.local/lib/python2.7/site-packages/sklearn/linear_model/base.py”, line 215, in predict scores = self.decision_function(X) File “/home/radu/.local/lib/python2.7/site-packages/sklearn/linear_model/base.py”, line 196, in decision_function % (X.shape[1], n_features)) ValueError: X […]

Al trazar una curva ROC en scikit solo se obtienen 3 puntos

TLDR: la función roc_curve de roc_curve solo devuelve 3 puntos para un determinado conjunto de datos. ¿Por qué podría ser esto y cómo controlamos cuántos puntos recuperar? Estoy intentando dibujar una curva ROC, pero siempre obtengo un “triángulo ROC”. lr = LogisticRegression(multi_class = ‘multinomial’, solver = ‘newton-cg’) y = data[‘target’].values X = data[[‘feature’]].values model = […]

Scikit-Learn: Label no x está presente en todos los ejemplos de entrenamiento

Estoy tratando de hacer clasificación multilabel con SVM. Tengo casi 8k características y también tengo un vector de longitud con casi 400. Ya he binarizado vectores Y, así que no MultiLabelBinarizer() pero cuando lo uso con la forma en bruto de mis datos Y, sigue dando lo mismo. Estoy ejecutando este código: X = np.genfromtxt(‘data_X’, […]

¿Cómo obtener nombres de características seleccionados por eliminación de características en la canalización de sklearn?

Estoy usando la eliminación recursiva de funciones en mi canalización de sklearn, la tubería se parece a esto: from sklearn.pipeline import FeatureUnion, Pipeline from sklearn import feature_selection from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.svm import LinearSVC X = [‘I am a sentence’, ‘an example’] Y = [1, 2] X_dev = [‘another sentence’] # classifier LinearSVC1 = […]

¿Cómo funciona Adagrad en Keras? ¿Qué significa self.weights en Keras Optimizer?

Por ejemplo, la implementación de Adagrad de Keras ha sido: class Adagrad(Optimizer): “””Adagrad optimizer. It is recommended to leave the parameters of this optimizer at their default values. # Arguments lr: float >= 0. Learning rate. epsilon: float >= 0. decay: float >= 0. Learning rate decay over each update. # References – [Adaptive Subgradient […]

Scikit-Learn Divisiones cruzadas personalizadas para datos de series de tiempo

Me gustaría usar GridSearchCV de scikit-learn para determinar algunos parámetros para un modelo de bosque aleatorio. Mis datos dependen del tiempo y se parecen a import pandas as pd train = pd.DataFrame({‘date’: pd.DatetimeIndex([‘2012-1-1’, ‘2012-9-30’, ‘2013-4-3’, ‘2014-8-16’, ‘2015-3-20’, ‘2015-6-30’]), ‘feature1’: [1.2, 3.3, 2.7, 4.0, 8.2, 6.5], ‘feature2’: [4, 4, 10, 3, 10, 9], ‘target’: [1,2,1,3,2,2]}) >>> […]