Réalisation 01 · Téléphonie + IA

Assistant vocal IA pour le service client

Un bot téléphonique qui décroche, comprend l'appelant grâce à l'IA et qualifie sa demande en moins d'une seconde — entièrement auto-hébergé, pour environ dix fois moins cher que les plateformes du marché.

ContexteMission entreprise

Mon rôleConception & dev

StatutPré-test

UsagePilote · pré-test

Le besoin

Un service client reçoit chaque jour des appels qu'il faut qualifier : identifier l'appelant, comprendre son problème, l'orienter ou créer un ticket. Les plateformes d'agents vocaux du marché facturent à la minute — la note grimpe vite, et l'entreprise ne maîtrise ni ses données, ni la latence, ni le comportement du bot.

L'objectif confié : construire une alternative maison, prête pour la production, avec un coût marginal par appel quasi nul, des données qui restent sur l'infrastructure de l'entreprise, et une réactivité au niveau d'un humain — soit une réponse perçue en moins d'une seconde.

« Le client ne doit jamais sentir qu'il parle à une machine lente. »

La solution

J'ai conçu un pipeline temps réel entièrement conteneurisé. L'appel arrive par la téléphonie, la voix est transcrite, comprise par un modèle de langage qui s'appuie sur la base de connaissances métier, puis une réponse vocale est synthétisée et renvoyée — le tout en continu, avec interruption possible (l'appelant peut couper le bot, comme dans une vraie conversation).

Appel téléphonique → Asterisk (flux audio temps réel) ↓ Transcription (STT) — reconnaissance vocale en streaming ↓ Compréhension (LLM) + base de connaissances métier (RAG) ↓ Réponse vocale (TTS) — synthèse locale, ~80–200 ms ↓ Décision → création de ticket ou transfert technicien

Plusieurs partis pris d'ingénierie pour tenir la contrainte de latence :

Streaming parallèle de bout en bout — on ne attend jamais qu'une étape soit finie pour commencer la suivante.
Synthèse vocale locale (modèle ONNX) — gratuite, sans appel réseau, démarrage en 80–200 ms.
Coupe-circuit automatique (circuit breaker) : si un service externe défaille, bascule instantanée sur une solution de secours.
Détection de parole locale pour gérer les silences et l'interruption (barge-in) au mot près.
Comportement piloté par fichier : le scénario de dialogue est décrit en YAML, modifiable sans toucher au code ni redéployer.

Côté architecture logicielle, le code est organisé en couches nettes (livraison / métier / connecteurs / modèles), avec une horloge injectable qui rend tous les délais testables. Résultat : 512 tests automatisés déterministes, sans aucun test instable lié au temps réel.

Asterisk · AudioSocketPython · asyncioTranscription streamingLLM (streaming)Synthèse vocale ONNXRAG · base vectoriellePostgreSQLRedisDocker ComposePrometheus

Les résultats

≈ 10×moins cher que les plateformes SaaS, à volume d'appels égal

< 1 sde réponse perçue par l'appelant, 24h/24

512tests automatisés — zéro régression silencieuse

Au-delà des chiffres, le projet a apporté à l'entreprise la maîtrise complète : les données clients restent en interne, le comportement du bot est ajustable à la demande, et l'équipe suit l'activité via des tableaux de bord dédiés (métier, technique, qualité IA) sans avoir besoin de lire le code.

Aperçus

Dashboard métier & latence

Fig. 01Suivi des appels et de la latence par étape

Flux conversationnel

Fig. 02Éditeur de scénario de dialogue (YAML)