¿Dónde puedo encontrar una lista de texto o una biblioteca que contenga una lista de alimentos comunes?

Estoy escribiendo una secuencia de comandos de Python que analiza los correos electrónicos que implica buscar en el texto del correo electrónico cualquier palabra que sea un elemento alimenticio común. Necesito alguna forma de determinar si las palabras son realmente alimentos.

He analizado varias API de procesamiento de lenguaje natural (como AlchemyAPI y NLTK 2.0) y parece que tienen una Extracción de Entidad Designada (que es lo que quiero), pero no puedo encontrar un tipo de entidad para alimentos en particular.

Es muy posible que el procesamiento del lenguaje natural sea excesivo para lo que necesito: solo quiero una lista de alimentos con los que pueda compararme. ¿Dónde puedo encontrar una lista de palabras? ¿Necesito escribir mi propio raspador para analizarlo de alguna fuente en línea, o hay alguna forma más fácil?

Sería muy bueno tener todos los alimentos en una sola lista, pero lamentablemente ese es el caso ideal.

Puedes intentar acceder al sincronismo de food en WordNet. Si está utilizando NLTK, intente:

 >>> from nltk.corpus import wordnet as wn >>> food = wn.synset('food.n.02') >>> list(set([w for s in food.closure(lambda s:s.hyponyms()) for w in s.lemma_names()])) 

AFAIK, no hay una entidad de alimentos comunes para NLTK o similar. Es muy probable que tengas que construir una lista por ti mismo.

Pero, afortunadamente, internet es su amigo, aquí hay algunas buenas fonts para comenzar que cubren muchas verduras y frutas comunes en el mundo de habla inglesa:

¡Buena suerte!

Dado que las entidades nombradas son nombres propios (es decir, personas, lugares, compañías, ubicaciones, etc.), es poco probable que la extracción de entidades de la PNL funcione para encontrar nombres comunes de alimentos. La función de NLP que podría funcionar es la extracción de palabras clave. Recorrí algunas recetas a través de la demostración de AlchemyAPI y los ingredientes se identifican como palabras clave. Así que eso te lleva a una parte del camino allí, pero aún tendrás que comparar las palabras clave con una lista de alimentos comunes, como lo mencionó jrd1.