Prepare los datos para la clasificación de texto usando Scikit Learn SVM

Estoy tratando de aplicar SVM de Scikit para clasificar los tweets que he recostackdo. Entonces, habrá dos categorías, nombre A y B. Por ahora, tengo todos los tweets categorizados en dos archivos de texto, ‘A.txt’ y ‘B.txt’. Sin embargo, no estoy seguro de qué tipo de datos ingresan los Scikit Learn SVM. Tengo un diccionario con tags (A y B) como claves y un diccionario de características (unigtwigs) y sus frecuencias como valores. Lo siento, soy realmente nuevo en el aprendizaje automático y no estoy seguro de qué debo hacer para obtener el trabajo de SVM. Y encontré que SVM está usando numpy.ndarray como el tipo de entrada de datos. ¿Necesito crear uno basado en mis propios datos? ¿Debería ser algo como esto?

Labels features frequency A 'book' 54 B 'movies' 32 

Cualquier ayuda es apreciada.

Echa un vistazo a la documentación sobre la extracción de características de texto .

Vea también el ejemplo de clasificación de texto .

También hay un tutorial aquí:

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

En particular, no se centre demasiado en los modelos SVM (en particular, no sklearn.svm.SVC que es más interesante para los modelos de kernel, por lo tanto no en la clasificación de texto): un simple Perceptron, LogisticRegression o Bernoulli Bayive. Más rápido para entrenar.