Agregar palabras a la lista de detención de CountVectorizer de scikit-learn

La clase CountVectorizer de Scikit -learn le permite pasar una cadena ‘inglés’ al argumento stop_words. Quiero agregar algunas cosas a esta lista predefinida. ¿Puede alguien decirme cómo hacer esto?

De acuerdo con el código fuente de sklearn.feature_extraction.text , la lista completa (en realidad un frozenset , de stop_words ) de ENGLISH_STOP_WORDS se expone a través de __all__ . Por lo tanto, si desea usar esa lista más algunos elementos más, podría hacer algo como:

 from sklearn.feature_extraction import text stop_words = text.ENGLISH_STOP_WORDS.union(my_additional_stop_words) 

(donde my_additional_stop_words es cualquier secuencia de cadenas) y usa el resultado como el argumento stop_words . Esta entrada a CountVectorizer.__init__ es analizada por _check_stop_list , que pasará el nuevo frozenset directamente.