ValueError: Tipo de etiqueta desconocido: ‘desconocido’

Intento ejecutar el siguiente código. Por cierto, soy nuevo tanto en python como en sklearn.

import pandas as pd import numpy as np from sklearn.linear_model import LogisticRegression # data import and preparation trainData = pd.read_csv('train.csv') train = trainData.values testData = pd.read_csv('test.csv') test = testData.values X = np.c_[train[:, 0], train[:, 2], train[:, 6:7], train[:, 9]] X = np.nan_to_num(X) y = train[:, 1] Xtest = np.c_[test[:, 0:1], test[:, 5:6], test[:, 8]] Xtest = np.nan_to_num(Xtest) # model lr = LogisticRegression() lr.fit(X, y) 

donde y es un np.ndarray de 0’s y 1’s

Recibo lo siguiente:

Archivo “C: \ Anaconda3 \ lib \ site-packages \ sklearn \ linear_model \ logistic.py”, línea> 1174, en ajuste check_classification_targets (y)

El archivo “C: \ Anaconda3 \ lib \ site-packages \ sklearn \ utils \ multiclass.py”, línea 172,> en check_classification_targets genera ValueError (“Tipo de etiqueta desconocido:% r”% y_type)

ValueError: Tipo de etiqueta desconocido: ‘desconocido’

de la documentación de sklearn: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression.fit

y: similar a una matriz, forma (n_samples,) Valores objective (tags de clase en clasificación, números reales en regresión)

Cual es mi error

actualizacion:

y es matriz ([0.0, 1.0, 1.0, …, 0.0, 1.0, 0.0], dtype = object) el tamaño es (891,)

Su y es de tipo object , por lo que sklearn no puede reconocer su tipo. Agregue la línea y=y.astype('int') justo después de la línea y = train[:, 1] .