Uso de scikit-learn para entrenar en datos multidimensionales.

Es un concepto muy básico: tengo más de una dependencia para la capacitación. Mis datos son todos de texto y tengo tres campos separados. Todos los ejemplos que he podido encontrar tienen datos de texto configurados de esta manera:

data = ['text1','text2',...] 

donde el mio se parece a

 data = [['text1','text2','text3'],[...],...] 

pero cuando bash ajustarme a los datos, obtengo el siguiente rastreo:

 ValueError Traceback (most recent call last)  in () ----> 1 classifier.fit(X,y) /opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/svm/base.pyc in fit(self, X, y, sample_weight) 140 "by not using the ``sparse`` parameter") 141 --> 142 X = atleast2d_or_csr(X, dtype=np.float64, order='C') 143 144 if self.impl in ['c_svc', 'nu_svc']: /opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.pyc in atleast2d_or_csr(X, dtype, order, copy) 114 """ 115 return _atleast2d_or_sparse(X, dtype, order, copy, sparse.csr_matrix, --> 116 "tocsr") 117 118 /opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.pyc in _atleast2d_or_sparse(X, dtype, order, copy, sparse_class, convmethod) 94 _assert_all_finite(X.data) 95 else: ---> 96 X = array2d(X, dtype=dtype, order=order, copy=copy) 97 _assert_all_finite(X) 98 return X /opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.pyc in array2d(X, dtype, order, copy) 78 raise TypeError('A sparse matrix was passed, but dense data ' 79 'is required. Use X.toarray() to convert to dense.') ---> 80 X_2d = np.asarray(np.atleast_2d(X), dtype=dtype, order=order) 81 _assert_all_finite(X_2d) 82 if X is X_2d and copy: /opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/numpy/core/numeric.pyc in asarray(a, dtype, order) 318 319 """ --> 320 return array(a, dtype, copy=False, order=order) 321 322 def asanyarray(a, dtype=None, order=None): ValueError: setting an array element with a sequence. 

¿Hay alguna forma específica en la que tenga que abordar esto? ¡Gracias!

NOTAS:

Todos los datos de texto que estoy usando están vectorizados por un HashingVectorizer

clf.fit(X,y) donde X es una lista de listas que contienen 3 textos vectorizados, y y es una lista de las categorías respectivas a las que pertenece el elemento de X

X tiene que ser una matriz bidimensional (o lista de listas, si lo desea). Y cada lista en esta lista de listas tiene que ser una lista de valores numéricos. Y todas estas listas deben tener la misma longitud. Así: [[1,2,3,5], [3,4,5,6], [6,7,8,9], …]. Si para cada objeto tiene varias entradas de texto que está vectorizando, necesita combinar los textos vectorizados resultantes en una sola lista. Por ejemplo, concatenarlos, si tiene sentido en su contexto. Entonces, eventualmente, cada objeto debe ser representado por una sola lista donde todas las entradas son numéricas. Y todos los objetos deben estar representados por listas de igual longitud, donde los elementos correspondientes en todas las listas representan la misma característica (por ejemplo, la frecuencia del mismo token en sus textos). Déjame saber si lo que estoy diciendo tiene sentido.