Preparación de datos y selección de características para la entidad nombrada usando SVM

Tengo algunos datos de comentarios de los usuarios de los que quiero encontrar el nombre de las marcas de electrónica de consumo. Por ejemplo, considere esta oración de ejemplo ne_chinked que habla de “PS4”, “nokia 720 lumia”, “apple ipad”, “sony bravia”: –

In [52]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('When is the PS4 releasing'))) Out[52]: Tree('S', [('When', 'WRB'), ('is', 'VBZ'), ('the', 'DT'), Tree('ORGANIZATION', [('PS4', 'NNP')]), ('releasing', 'NN')]) In [53]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('I couldnt find the nokia 720 lumia in stores'))) Out[53]: Tree('S', [('I', 'PRP'), ('couldnt', 'VBP'), ('find', 'JJ'), ('the', 'DT'), ('nokia', 'NN'), ('720', 'CD'), ('lumia', 'NN'), ('in', 'IN'), ('stores', 'NNS')]) In [54]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('I just bought apple ipad and its really awesome'))) Out[54]: Tree('S', [('I', 'PRP'), ('just', 'RB'), ('bought', 'VBD'), ('apple', 'JJ'), ('ipad', 'NN'), ('and', 'CC'), ('its', 'PRP$'), ('really', 'RB'), ('awesome', 'JJ')]) In [55]: nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize('I would like to buy 1 Sony bravia led television'))) Out[55]: Tree('S', [('I', 'PRP'), ('would', 'MD'), ('like', 'VB'), ('to', 'TO'), ('buy', 'VB'), ('1', 'CD'), ('Sony', 'NNP'), ('bravia', 'IN'), ('led', 'VBN'), ('television', 'NN')]) 

El problema es cómo represento los datos para que los svm aprendan. Leí decenas de artículos de investigación, pero ninguno de ellos ha revelado cómo representaban los datos de características en la svm. ¿Alguien puede ayudar por favor?

Lo que haría sería agregar todas las entradas de marcas electrónicas que le importan en una lista, y luego, para que cada entrada sea única, usaría el índice de su entrada en la lista como una característica.

por ejemplo, [‘Nokia’, ‘Apple’, ‘Microsoft’]

entonces: Nokia => 1 Microsoft => 2 etc.

Esto podría ayudar a tener una representación única por marca, como resultado, una característica para SVM entre otras.