TensorFlow en producción para predicciones en tiempo real en aplicaciones de alto tráfico: ¿cómo usarlas?

¿Cuál es la forma correcta de usar TensorFlow para predicciones en tiempo real en una aplicación de alto tráfico?

Lo ideal sería tener un servidor / clúster ejecutando tensorflow escuchando en un puerto (s) donde puedo conectarme desde los servidores de aplicaciones y obtener predicciones similares a la forma en que se usan las bases de datos. La capacitación debe realizarse mediante trabajos cron que alimenten los datos de capacitación a través de la red al mismo servidor / clúster.

¿Cómo se usa realmente un tensorflow en la producción? ¿Debo crear una configuración donde se esté ejecutando python como servidor y usar los scripts de python para obtener predicciones? Todavía soy nuevo en esto, pero siento que tal script necesitará abrir sesiones, etc., lo cual no es escalable. (Estoy hablando de 100s de predicciones / seg).

Cualquier puntero a la información relevante será muy apreciado. No pude encontrar ninguna.

Esta mañana, nuestros colegas lanzaron TensorFlow Serving en GitHub, que aborda algunos de los casos de uso que mencionó. Es un envoltorio distribuido para TensorFlow que está diseñado para admitir el servicio de alto rendimiento de múltiples modelos. Admite tanto el procesamiento masivo como las solicitudes interactivas de los servidores de aplicaciones.

Para más información, consulte los tutoriales básicos y avanzados .