nemotron-voice-agent-deploy

Par nvidia · skills

Déployez Nemotron Voice Agent sur station de travail (x86), Jetson Thor ou les Cloud NIMs. Conversion vocale temps réel avec NVIDIA ASR, TTS, LLM via transport WebRTC/WebSocket.

npx skills add https://github.com/nvidia/skills --skill nemotron-voice-agent-deploy

Déploiement d'agent vocal Nemotron

Agent conversationnel IA temps réel utilisant les NIMs NVIDIA (ASR, TTS, LLM) avec transport WebRTC (par défaut) ou WebSocket.

Flux de déploiement

Toujours vérifier le matériel en premier, même si l'utilisateur mentionne une plateforme spécifique.

ÉTAPE 1 : Détection du matériel

nvidia-smi --query-gpu=name,memory.total --format=csv,noheader 2>/dev/null
Résultat Action
La commande échoue / Pas de sortie Cloud NIMs
GPU détecté ÉTAPE 2 : Détection de la plateforme

Cloud NIMs (sans GPU)

cd nemotron-voice-agent
git submodule update --init
cp config/env.example .env

Exporter votre clé API NVIDIA :

export NVIDIA_API_KEY=your-api-key  # Obtenez-la sur https://build.nvidia.com

Puis modifier .env :

NVIDIA_LLM_MODEL=nvidia/nemotron-3-nano-30b-a3b  # Nom du modèle cloud

Si l'utilisateur demande le transport WebSocket, ajoutez aussi à .env :

TRANSPORT=WEBSOCKET
docker compose up --build --no-deps -d python-app ui-app
# WebRTC: http://localhost:9000
# WebSocket: http://localhost:7860/static/index.html

Remarque : Le déploiement peut prendre 30 à 60 minutes à la première exécution.

Si l'utilisateur demande le mode multilingue, ajoutez aussi à .env :

ENABLE_MULTILINGUAL=true
ASR_CLOUD_FUNCTION_ID=71203149-d3b7-4460-8231-1be2543a1fca
ASR_MODEL_NAME=parakeet-rnnt-1.1b-unified-ml-cs-universal-multi-asr-streaming

Accès distant : ssh -L 9000:localhost:9000 user@host ou http://<HOST_IP>:9000


ÉTAPE 2 : Détection de la plateforme (si GPU détecté)

uname -m  # x86_64 → Workstation, aarch64 → Jetson
cat /etc/nv_tegra_release 2>/dev/null && echo "Jetson"
Plateforme Référence Exigences
Workstation (x86_64) workstation-deployment.md 2x GPU (24 Go+ de VRAM), conteneurs NIM
Jetson Thor (aarch64) jetson-deployment.md JetPack 7.0, Nemotron Speech ASR et TTS, vLLM

Remarque : Le mode multilingue est disponible sur Workstation avec transport WebRTC uniquement.

Skills similaires