FLOW — Scaling

Scaling Dynamique de 0 à 1000 Agents

FLOW est conçu pour scaler de 0 à 1000+ agents vocaux simultanés grâce à une infrastructure Kubernetes autoscalable. Le monitoring en temps réel vous donne une visibilité complète.

Architecture de scaling

Infrastructure Kubernetes

  • Déploiement GKE (Google Kubernetes Engine)
  • Autoscaling horizontal (HPA)
  • Node pools dédiés par service
  • Région Europe (europe-west1)

Pipeline vocal temps réel

  • LiveKit pour le transport audio
  • STT (Speech-to-Text) streaming
  • LLM (GPT-4o, Claude) pour la réflexion
  • TTS (Text-to-Speech) pour la voix

Monitoring en temps réel

Appels actifs

Nombre d'appels en cours et en file d'attente, avec statut temps réel

Consommation

Tokens utilisés par agent, durée audio, coût par session

Tendances

Graphiques d'évolution du volume d'appels et des performances

Métriques par agent

  • Appels traités : Nombre d'appels gérés par chaque agent sur la période
  • Durée moyenne : Temps moyen de conversation par agent
  • Tokens consommés : Total et moyenne par session (LLM + STT + TTS)
  • Taux de transfert : Pourcentage d'appels transférés à un humain
  • Données extraites : Taux de complétion du schéma de données
  • Heartbeat : Statut de disponibilité de chaque instance d'agent

Questions fréquentes

Comment FLOW gère-t-il le scaling automatique ?

FLOW est déployé sur Kubernetes avec autoscaling horizontal. Les instances sont créées et libérées automatiquement selon le volume d'appels.

Quelle est la latence de réponse ?

La latence moyenne est de 500ms à 1.5s pour la première réponse, incluant transcription, traitement LLM et synthèse vocale.

Quelles métriques de monitoring sont disponibles ?

Nombre d'appels actifs, durée moyenne, consommation de tokens, taux de réussite, et graphiques de tendance historiques.

Scalez vos agents vocaux

Scaling Dynamique 0 à 1000 Agents — Infrastructure Autoscalable | FLOW - AnalysisAI