FLOW — Scaling
Scaling Dynamique de 0 à 1000 Agents
FLOW est conçu pour scaler de 0 à 1000+ agents vocaux simultanés grâce à une infrastructure Kubernetes autoscalable. Le monitoring en temps réel vous donne une visibilité complète.
Architecture de scaling
Infrastructure Kubernetes
- Déploiement GKE (Google Kubernetes Engine)
- Autoscaling horizontal (HPA)
- Node pools dédiés par service
- Région Europe (europe-west1)
Pipeline vocal temps réel
- LiveKit pour le transport audio
- STT (Speech-to-Text) streaming
- LLM (GPT-4o, Claude) pour la réflexion
- TTS (Text-to-Speech) pour la voix
Monitoring en temps réel
Appels actifs
Nombre d'appels en cours et en file d'attente, avec statut temps réel
Consommation
Tokens utilisés par agent, durée audio, coût par session
Tendances
Graphiques d'évolution du volume d'appels et des performances
Métriques par agent
- Appels traités : Nombre d'appels gérés par chaque agent sur la période
- Durée moyenne : Temps moyen de conversation par agent
- Tokens consommés : Total et moyenne par session (LLM + STT + TTS)
- Taux de transfert : Pourcentage d'appels transférés à un humain
- Données extraites : Taux de complétion du schéma de données
- Heartbeat : Statut de disponibilité de chaque instance d'agent
Questions fréquentes
Comment FLOW gère-t-il le scaling automatique ?
FLOW est déployé sur Kubernetes avec autoscaling horizontal. Les instances sont créées et libérées automatiquement selon le volume d'appels.
Quelle est la latence de réponse ?
La latence moyenne est de 500ms à 1.5s pour la première réponse, incluant transcription, traitement LLM et synthèse vocale.
Quelles métriques de monitoring sont disponibles ?
Nombre d'appels actifs, durée moyenne, consommation de tokens, taux de réussite, et graphiques de tendance historiques.
