FLOW — Scaling

Scaling Dynamique de 0 à 1000 Agents

FLOW est conçu pour scaler de 0 à 1000+ agents vocaux simultanés grâce à une infrastructure Kubernetes autoscalable. Le monitoring en temps réel vous donne une visibilité complète.

Architecture de scaling

Infrastructure Kubernetes

Déploiement GKE (Google Kubernetes Engine)
Autoscaling horizontal (HPA)
Node pools dédiés par service
Région Europe (europe-west1)

Pipeline vocal temps réel

LiveKit pour le transport audio
STT (Speech-to-Text) streaming
LLM (GPT-4o, Claude) pour la réflexion
TTS (Text-to-Speech) pour la voix

Monitoring en temps réel

Appels actifs

Nombre d'appels en cours et en file d'attente, avec statut temps réel

Consommation

Tokens utilisés par agent, durée audio, coût par session

Tendances

Graphiques d'évolution du volume d'appels et des performances

Métriques par agent

Appels traités : Nombre d'appels gérés par chaque agent sur la période
Durée moyenne : Temps moyen de conversation par agent
Tokens consommés : Total et moyenne par session (LLM + STT + TTS)
Taux de transfert : Pourcentage d'appels transférés à un humain
Données extraites : Taux de complétion du schéma de données
Heartbeat : Statut de disponibilité de chaque instance d'agent

Questions fréquentes

Comment FLOW gère-t-il le scaling automatique ?

FLOW est déployé sur Kubernetes avec autoscaling horizontal. Les instances sont créées et libérées automatiquement selon le volume d'appels.

Quelle est la latence de réponse ?

La latence moyenne est de 500ms à 1.5s pour la première réponse, incluant transcription, traitement LLM et synthèse vocale.

Quelles métriques de monitoring sont disponibles ?

Nombre d'appels actifs, durée moyenne, consommation de tokens, taux de réussite, et graphiques de tendance historiques.

Scalez vos agents vocaux

Demander un rappel Retour à FLOW