Déploiement d'agent vocal Nemotron
Agent conversationnel IA temps réel utilisant les NIMs NVIDIA (ASR, TTS, LLM) avec transport WebRTC (par défaut) ou WebSocket.
Flux de déploiement
Toujours vérifier le matériel en premier, même si l'utilisateur mentionne une plateforme spécifique.
ÉTAPE 1 : Détection du matériel
nvidia-smi --query-gpu=name,memory.total --format=csv,noheader 2>/dev/null
| Résultat | Action |
|---|---|
| La commande échoue / Pas de sortie | → Cloud NIMs |
| GPU détecté | → ÉTAPE 2 : Détection de la plateforme |
Cloud NIMs (sans GPU)
cd nemotron-voice-agent
git submodule update --init
cp config/env.example .env
Exporter votre clé API NVIDIA :
export NVIDIA_API_KEY=your-api-key # Obtenez-la sur https://build.nvidia.com
Puis modifier .env :
NVIDIA_LLM_MODEL=nvidia/nemotron-3-nano-30b-a3b # Nom du modèle cloud
Si l'utilisateur demande le transport WebSocket, ajoutez aussi à .env :
TRANSPORT=WEBSOCKET
docker compose up --build --no-deps -d python-app ui-app
# WebRTC: http://localhost:9000
# WebSocket: http://localhost:7860/static/index.html
Remarque : Le déploiement peut prendre 30 à 60 minutes à la première exécution.
Si l'utilisateur demande le mode multilingue, ajoutez aussi à .env :
ENABLE_MULTILINGUAL=true
ASR_CLOUD_FUNCTION_ID=71203149-d3b7-4460-8231-1be2543a1fca
ASR_MODEL_NAME=parakeet-rnnt-1.1b-unified-ml-cs-universal-multi-asr-streaming
Accès distant : ssh -L 9000:localhost:9000 user@host ou http://<HOST_IP>:9000
ÉTAPE 2 : Détection de la plateforme (si GPU détecté)
uname -m # x86_64 → Workstation, aarch64 → Jetson
cat /etc/nv_tegra_release 2>/dev/null && echo "Jetson"
| Plateforme | Référence | Exigences |
|---|---|---|
| Workstation (x86_64) | workstation-deployment.md | 2x GPU (24 Go+ de VRAM), conteneurs NIM |
| Jetson Thor (aarch64) | jetson-deployment.md | JetPack 7.0, Nemotron Speech ASR et TTS, vLLM |
Remarque : Le mode multilingue est disponible sur Workstation avec transport WebRTC uniquement.