Articles of random forest

Numpy Array Obtiene la búsqueda por fila por índice

Soy nuevo en numpy y estoy implementando la agrupación en clústeres con un bosque aleatorio en Python. Mi pregunta es: ¿Cómo podría encontrar el índice de la fila exacta en una matriz? Por ejemplo [[ 0. 5. 2.] [ 0. 0. 3.] [ 0. 0. 0.]] y busco [0. 0. 3.] [0. 0. 3.] y […]

Error del Regresor Forestal Aleatorio de Python Scikit

Estoy tratando de cargar el entrenamiento y los datos de prueba de un csv, ejecutar el regresor de bosque aleatorio en scikit / sklearn, y luego predecir la salida del archivo de prueba. El archivo TrainLoanData.csv contiene 5 columnas; la primera columna es la salida y las siguientes 4 columnas son las características. El TestLoanData.csv […]

¿Cómo generar RandomForest Classifier desde python?

He entrenado un RandomForestClassifier del Python Sckit Learn Module con un conjunto de datos muy grande, pero la pregunta es cómo puedo guardar este modelo y dejar que otras personas lo apliquen en su extremo. ¡Gracias!

Python RandomForest – Error de etiqueta desconocida

Tengo problemas para usar la función de ajuste RandomForest Este es mi conjunto de entrenamiento. P1 Tp1 IrrPOA Gz Drz2 0 0.0 7.7 0.0 -1.4 -0.3 1 0.0 7.7 0.0 -1.4 -0.3 2 … … … … … 3 49.4 7.5 0.0 -1.4 -0.3 4 47.4 7.5 0.0 -1.4 -0.3 … (10k rows) Quiero predecir […]

Error con Sklearn Random Forest Regressor

Cuando se trata de ajustar un modelo de Regresor de bosque aleatorio con datos y que se parecen a esto: [ 0.00000000e+00 1.36094276e+02 4.46608221e+03 8.72660888e+03 1.31375786e+04 1.73580193e+04 2.29420671e+04 3.12216341e+04 4.11395711e+04 5.07972062e+04 6.14904935e+04 7.34275322e+04 7.87333933e+04 8.46302456e+04 9.71074959e+04 1.07146672e+05 1.17187952e+05 1.26953374e+05 1.37736003e+05 1.47239359e+05 1.53943242e+05 1.78806710e+05 1.92657725e+05 2.08912711e+05 2.22855152e+05 2.34532982e+05 2.41391255e+05 2.48699216e+05 2.62421197e+05 2.79544300e+05 2.95550971e+05 3.13524275e+05 3.23365158e+05 3.24069067e+05 […]

Usar la función predict_proba () de RandomForestClassifier de forma segura y correcta

Estoy usando Scikit-learn para aplicar el algoritmo de aprendizaje automático en mis conjuntos de datos. A veces necesito tener las probabilidades de tags / clases instaladas de las tags / clases en sí. En lugar de tener Spam / No Spam como tags de correos electrónicos, deseo tener solo por ejemplo: 0.78 probabilidad de que […]

¿Por qué sklearn preprocesamiento LabelEncoder inverse_transform se aplica desde una sola columna?

Tengo un modelo de bosque al azar construido con sklearn. El modelo está integrado en un archivo, y tengo un segundo archivo donde uso joblib para cargar el modelo y aplicarlo a los nuevos datos. Los datos tienen campos categóricos que se convierten a través del preprocesamiento LabelEncoder.fit_transform . Una vez que se realiza la […]

¿Cómo ajustar los parámetros en Random Forest, usando Scikit Learn?

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None, bootstrap=True, oob_score=False, n_jobs=1, random_state=None, verbose=0, warm_start=False, class_weight=None) Estoy usando un modelo de bosque aleatorio con 9 muestras y unos 7000 atributos. De estas muestras, hay 3 categorías que reconoce mi clasificador. Sé que esto está lejos de ser las condiciones ideales, pero estoy tratando de averiguar […]

RandomForestClassfier.fit (): ValueError: no se pudo convertir la cadena a flotar

Dado es un simple archivo CSV: A,B,C Hello,Hi,0 Hola,Bueno,1 Obviamente, el conjunto de datos real es mucho más complejo que esto, pero este reproduce el error. Estoy intentando construir un clasificador de bosque aleatorio para él, así: cols = [‘A’,’B’,’C’] col_types = {‘A’: str, ‘B’: str, ‘C’: int} test = pd.read_csv(‘test.csv’, dtype=col_types) train_y = test[‘C’] […]

¿Cómo resuelvo el sobreajuste en el bosque aleatorio de Python sklearn?

Estoy usando RandomForestClassifier implementado en el paquete sklearn de Python para construir un modelo de clasificación binario. Los siguientes son los resultados de validaciones cruzadas: Fold 1 : Train: 164 Test: 40 Train Accuracy: 0.914634146341 Test Accuracy: 0.55 Fold 2 : Train: 163 Test: 41 Train Accuracy: 0.871165644172 Test Accuracy: 0.707317073171 Fold 3 : Train: […]