¿Cómo puedo agregar más idiomas a Stopwords en NLTK?

Estoy usando NLTK con palabras de parada para detectar el idioma de un documento usando el método descrito por Alejandro Nolla en http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and- nltk / , y funciona bastante bien.

También estoy trabajando con algunos idiomas adicionales que no están incluidos en el paquete de palabras clave NLTK, como el checo y el rumano, y obtienen coincidencias falsas como otros idiomas. Estos son los idiomas en palabras de parada:

[‘danés’, ‘holandés’, ‘inglés’, ‘finlandés’, ‘francés’, ‘alemán’, ‘húngaro’, ‘italiano’, ‘noruego’, ‘portugués’, ‘ruso’, ‘español’, ‘ sueco ‘,’ turco ‘]

¿Cómo puedo ampliar la lista de idiomas soportados por NLTK? ¿Hay otras listas de palabras clave disponibles que puedo agregar? ¿Existe un método documentado que pueda usar para crear y agregar mis propias listas de palabras de parada?

    Buscar en Google para “palabras en rumano” trae una buena cantidad de recursos.

    Si desea hacerlo usted mismo, simplemente necesita encontrar palabras que sean comunes en todos los géneros de texto. (El artículo al que se vincula tiene una explicación bastante deficiente de lo que son las palabras para detener). Los buenos candidatos son artículos, partículas (si su idioma las tiene y aparecen de forma aislada), conjunciones, pronombres y algunos tipos de adverbios.

    Creación automática de una lista de palabras clave para un sistema de recuperación de información (Rachel Tsz-Wai Lo, Ben He, Iadh Ounis; Universidad de Glasgow, 2008) (PDF) documenta un método automático para encontrar palabras clave . No he mirado el método ni sus resultados.

    https://github.com/berkmancenter/mediacloud/blob/master/script/mediawords_generate_stopwords.pl parece tener una implementación. (El comentario tiene otros nombres además del artículo; no estoy seguro de qué pasa con eso).