Error de Python con sklearn.model_selection.train_test_split: ValueError: Se encontraron variables de entrada con números de muestras inconsistentes:

Mi número de tags no coincide con el número de muestras, por lo que creo que una solución sería eliminar algunos de los datos de muestra, pero creo que no es una buena práctica en general.

Aquí está mi código:

X = np.loadtxt('/Users/myname/PycharmProjects/my_project/X.txt') y = np.loadtxt('/Users/myname/PycharmProjects/my_project/y.txt') print np.shape(X) print np.shape(y) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3) 

Me sale el error:

 ValueError: Found input variables with inconsistent numbers of samples: [416858, 398427] 

¿Alguien puede explicar lo que tendría que hacer para arreglarlo?

¿Cuáles son los resultados para np.shape (x) y np.shape (y)? Tal vez eso pueda ayudarte. Si no tiene un valor objective para todas sus entradas, debe corregirlo. Solo eliminar puede ser problemático, ya que si los valores faltantes no son aleatorios, influirá en el resultado de su modelo. Tu mejor opción sería realizar imputación. Vea la página de Wikipedia para más información.