Tengo un problema de clasificación (predecir si una secuencia pertenece a una clase o no), por lo que decidí usar varios métodos de clasificación para ayudar a filtrar los falsos positivos. (El problema está en la bioinformática: clasificar las secuencias de proteínas como secuencias precursoras de neuropéptidos. Aquí hay un artículo original, si alguien está […]
Estoy intentando realizar clústeres en Python usando bosques aleatorios. En la implementación de R de bosques aleatorios, hay una marca que puede establecer para obtener la matriz de proximidad. Parece que no puedo encontrar nada similar en la versión de Python scikit de Random Forest. ¿Alguien sabe si existe un cálculo equivalente para la versión […]
Soy nuevo en numpy y estoy implementando la agrupación en clústeres con un bosque aleatorio en Python. Mi pregunta es: ¿Cómo podría encontrar el índice de la fila exacta en una matriz? Por ejemplo [[ 0. 5. 2.] [ 0. 0. 3.] [ 0. 0. 0.]] y busco [0. 0. 3.] [0. 0. 3.] y […]
Estoy tratando de cargar el entrenamiento y los datos de prueba de un csv, ejecutar el regresor de bosque aleatorio en scikit / sklearn, y luego predecir la salida del archivo de prueba. El archivo TrainLoanData.csv contiene 5 columnas; la primera columna es la salida y las siguientes 4 columnas son las características. El TestLoanData.csv […]
He entrenado un RandomForestClassifier del Python Sckit Learn Module con un conjunto de datos muy grande, pero la pregunta es cómo puedo guardar este modelo y dejar que otras personas lo apliquen en su extremo. ¡Gracias!
Tengo problemas para usar la función de ajuste RandomForest Este es mi conjunto de entrenamiento. P1 Tp1 IrrPOA Gz Drz2 0 0.0 7.7 0.0 -1.4 -0.3 1 0.0 7.7 0.0 -1.4 -0.3 2 … … … … … 3 49.4 7.5 0.0 -1.4 -0.3 4 47.4 7.5 0.0 -1.4 -0.3 … (10k rows) Quiero predecir […]
Cuando se trata de ajustar un modelo de Regresor de bosque aleatorio con datos y que se parecen a esto: [ 0.00000000e+00 1.36094276e+02 4.46608221e+03 8.72660888e+03 1.31375786e+04 1.73580193e+04 2.29420671e+04 3.12216341e+04 4.11395711e+04 5.07972062e+04 6.14904935e+04 7.34275322e+04 7.87333933e+04 8.46302456e+04 9.71074959e+04 1.07146672e+05 1.17187952e+05 1.26953374e+05 1.37736003e+05 1.47239359e+05 1.53943242e+05 1.78806710e+05 1.92657725e+05 2.08912711e+05 2.22855152e+05 2.34532982e+05 2.41391255e+05 2.48699216e+05 2.62421197e+05 2.79544300e+05 2.95550971e+05 3.13524275e+05 3.23365158e+05 3.24069067e+05 […]
Estoy usando Scikit-learn para aplicar el algoritmo de aprendizaje automático en mis conjuntos de datos. A veces necesito tener las probabilidades de tags / clases instaladas de las tags / clases en sí. En lugar de tener Spam / No Spam como tags de correos electrónicos, deseo tener solo por ejemplo: 0.78 probabilidad de que […]
Tengo un modelo de bosque al azar construido con sklearn. El modelo está integrado en un archivo, y tengo un segundo archivo donde uso joblib para cargar el modelo y aplicarlo a los nuevos datos. Los datos tienen campos categóricos que se convierten a través del preprocesamiento LabelEncoder.fit_transform . Una vez que se realiza la […]
class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None) Estoy usando un modelo de bosque aleatorio con 9 muestras y unos 7000 atributos. De estas muestras, hay 3 categorías que reconoce mi clasificador. Sé que esto está lejos de ser las condiciones ideales, pero estoy tratando de averiguar […]