NetSynk
Disponible · 2026
AccueilProfilRéalisationsContact
Toutes les réalisations
Réalisation 01 · Téléphonie + IA

Assistant vocal IA pour le service client

Un bot téléphonique qui décroche, comprend l'appelant grâce à l'IA et qualifie sa demande en moins d'une seconde — entièrement auto-hébergé, pour environ dix fois moins cher que les plateformes du marché.

ContexteMission entreprise
Mon rôleConception & dev
StatutPré-test
UsagePilote · pré-test
01

Le besoin

Un service client reçoit chaque jour des appels qu'il faut qualifier : identifier l'appelant, comprendre son problème, l'orienter ou créer un ticket. Les plateformes d'agents vocaux du marché facturent à la minute — la note grimpe vite, et l'entreprise ne maîtrise ni ses données, ni la latence, ni le comportement du bot.

L'objectif confié : construire une alternative maison, prête pour la production, avec un coût marginal par appel quasi nul, des données qui restent sur l'infrastructure de l'entreprise, et une réactivité au niveau d'un humain — soit une réponse perçue en moins d'une seconde.

« Le client ne doit jamais sentir qu'il parle à une machine lente. »

02

La solution

J'ai conçu un pipeline temps réel entièrement conteneurisé. L'appel arrive par la téléphonie, la voix est transcrite, comprise par un modèle de langage qui s'appuie sur la base de connaissances métier, puis une réponse vocale est synthétisée et renvoyée — le tout en continu, avec interruption possible (l'appelant peut couper le bot, comme dans une vraie conversation).

Appel téléphonique Asterisk (flux audio temps réel) Transcription (STT) — reconnaissance vocale en streaming Compréhension (LLM) + base de connaissances métier (RAG) Réponse vocale (TTS) — synthèse locale, ~80–200 ms Décision création de ticket ou transfert technicien

Plusieurs partis pris d'ingénierie pour tenir la contrainte de latence :

  • Streaming parallèle de bout en bout — on ne attend jamais qu'une étape soit finie pour commencer la suivante.
  • Synthèse vocale locale (modèle ONNX) — gratuite, sans appel réseau, démarrage en 80–200 ms.
  • Coupe-circuit automatique (circuit breaker) : si un service externe défaille, bascule instantanée sur une solution de secours.
  • Détection de parole locale pour gérer les silences et l'interruption (barge-in) au mot près.
  • Comportement piloté par fichier : le scénario de dialogue est décrit en YAML, modifiable sans toucher au code ni redéployer.

Côté architecture logicielle, le code est organisé en couches nettes (livraison / métier / connecteurs / modèles), avec une horloge injectable qui rend tous les délais testables. Résultat : 512 tests automatisés déterministes, sans aucun test instable lié au temps réel.

Asterisk · AudioSocketPython · asyncioTranscription streamingLLM (streaming)Synthèse vocale ONNXRAG · base vectoriellePostgreSQLRedisDocker ComposePrometheus
03

Les résultats

≈ 10×moins cher que les plateformes SaaS, à volume d'appels égal
< 1 sde réponse perçue par l'appelant, 24h/24
512tests automatisés — zéro régression silencieuse

Au-delà des chiffres, le projet a apporté à l'entreprise la maîtrise complète : les données clients restent en interne, le comportement du bot est ajustable à la demande, et l'équipe suit l'activité via des tableaux de bord dédiés (métier, technique, qualité IA) sans avoir besoin de lire le code.

04

Aperçus

Dashboard métier & latence
Fig. 01Suivi des appels et de la latence par étape
Flux conversationnel
Fig. 02Éditeur de scénario de dialogue (YAML)