¿Entendiendo DictVectorizer en scikit-learn?

Estoy explorando las diferentes clases de extracción de características que proporciona scikit-learn. Leyendo la documentación que no entendí muy bien para saber qué DictVectorizer se puede usar. Otras preguntas vienen a la mente, por ejemplo, ¿cómo se puede usar DictVectorizer para la clasificación de texto ?, es decir, ¿cómo podría esta clase ayudar a manejar los datos textuales etiquetados? ¿Alguien podría proporcionar algún pequeño ejemplo aparte del ejemplo que ya he leído en la página web de documentación?

diga que el espacio de la característica es largo , ancho y alto y que ha tenido 3 observaciones; Es decir, se mide la longitud, anchura y altura de 3 objetos:

length width height obs.1 1 0 2 obs.2 0 1 1 obs.3 3 2 1 

Otra forma de mostrar esto es usar una lista de diccionarios:

 [{'height': 1, 'length': 0, 'width': 1}, # obs.2 {'height': 2, 'length': 1, 'width': 0}, # obs.1 {'height': 1, 'length': 3, 'width': 2}] # obs.3 

DictVectorizer va al revés; Es decir, dada la lista de diccionarios construye el marco superior:

 >>> from sklearn.feature_extraction import DictVectorizer >>> v = DictVectorizer(sparse=False) >>> d = [{'height': 1, 'length': 0, 'width': 1}, ... {'height': 2, 'length': 1, 'width': 0}, ... {'height': 1, 'length': 3, 'width': 2}] >>> v.fit_transform(d) array([[ 1., 0., 1.], # obs.2 [ 2., 1., 0.], # obs.1 [ 1., 3., 2.]]) # obs.3 # height, len., width