Regresión lineal de Sklearn – “IndexError: índice de tupla fuera de rango”

Tengo un archivo “.dat” en el que se guardan los valores de X e Y (por lo tanto, una tupla (n, 2) donde n es el número de filas).

import numpy as np import matplotlib.pyplot as plt import scipy.interpolate as interp from sklearn import linear_model in_file = open(path,"r") text = np.loadtxt(in_file) in_file.close() x = np.array(text[:,0]) y = np.array(text[:,1]) 

linear_model.LinearRegression() una instancia para linear_model.LinearRegression() , pero cuando invoco el .fit(x,y) obtengo

IndexError: índice de tupla fuera de rango

 regr = linear_model.LinearRegression() regr.fit(x,y) 

¿Qué hice mal?

La regresión lineal espera que X sea ​​una matriz con dos dimensiones e internamente requiere que X.shape[1] inicialice una matriz np.ones . Así que convertir X a una matriz nx1 haría el truco. Entonces, reemplace:

 regr.fit(x,y) 

por:

 regr.fit(x[:,np.newaxis],y) 

Esto arreglará el problema. Manifestación:

 >>> from sklearn import datasets >>> from sklearn import linear_model >>> clf = linear_model.LinearRegression() >>> iris=datasets.load_iris() >>> X=iris.data[:,3] >>> Y=iris.target >>> clf.fit(X,Y) # This will throw an error Traceback (most recent call last): File "", line 1, in  File "/usr/lib/python2.7/dist-packages/sklearn/linear_model/base.py", line 363, in fit X, y, self.fit_intercept, self.normalize, self.copy_X) File "/usr/lib/python2.7/dist-packages/sklearn/linear_model/base.py", line 103, in center_data X_std = np.ones(X.shape[1]) IndexError: tuple index out of range >>> clf.fit(X[:,np.newaxis],Y) # This will work properly LinearRegression(copy_X=True, fit_intercept=True, normalize=False) 

Para trazar la línea de regresión use el siguiente código:

 >>> from matplotlib import pyplot as plt >>> plt.scatter(X, Y, color='red')  >>> plt.plot(X, clf.predict(X[:,np.newaxis]), color='blue')  >>> plt.show() 

introduzca la descripción de la imagen aquí