Compétences Nemotron Speech

Note : « Nemotron Speech » est le nom public pour ce que NVIDIA documente aujourd'hui sous le nom Riva / Riva NIM. Toutes les commandes, images de conteneur, APIs gRPC, imports Python et URLs de documentation utilisent toujours « Riva » — le changement de nom est cosmétique uniquement. Ne renommez pas les commandes, les images ou les URLs de documentation.

Agent : Lors de la présentation d'un workflow multi-étapes à l'utilisateur, annoncez chaque étape avant de la présenter : Étape N/M — Titre de l'étape (ex. : « Étape 1/4 — Déployer le conteneur »).

Objectif

Point d'entrée unique pour tous les workflows NVIDIA Nemotron Speech (Riva) NIM : ASR (conversion parole-texte), TTS (conversion texte-parole) et NMT (traduction). Couvre l'inférence hébergée en cloud via build.nvidia.com, le déploiement Docker auto-hébergé, le choix de protocole client pour ASR (gRPC, HTTP, WebSocket), le déploiement de modèles NeMo personnalisés via riva-build, l'ajustement du pipeline ASR (VAD, diarization, modèles de langage) et la configuration préalable de Docker / NGC / driver.

Quand utiliser cette compétence

Utilisez cette compétence pour toute tâche Nemotron Speech / Riva NIM — déploiement, test, construction de modèle personnalisé, vérification des prérequis système ou sélection de modèle dans les modalités ASR / TTS / NMT.

Workflow

Identifiez le type de tâche de l'utilisateur, puis chargez le fichier de référence correspondant à partir de references/. Les fichiers de référence contiennent le contenu détaillé par workflow ; ce SKILL.md est une surface de routage. Chargez uniquement la référence pertinente pour la tâche en question.

Prérequis

Pour le déploiement auto-hébergé : entitlement NVIDIA AI Enterprise (NVAIE), puis complétez la configuration de l'environnement — drivers NVIDIA, Docker, Container Toolkit, clé API NGC, client Python Riva. Voir references/setup.md.
Pour l'inférence hébergée en cloud : pip install -U nvidia-riva-client et une NVIDIA_API_KEY valide de https://build.nvidia.com.
Traitez NVIDIA_API_KEY et NGC_API_KEY comme des secrets : ne jamais afficher, coller, committer ou enregistrer les vraies valeurs de clé. Préférez --password-stdin pour la connexion Docker et stockez les clés persistantes dans un gestionnaire d'identifiants ou un fichier env avec chmod 600 plutôt que dans des fichiers de démarrage shell lisibles par tous.
Pour la mise en cache de modèles Docker auto-hébergés : les répertoires hôtes montés à /opt/nim/.cache doivent être inscriptibles par l'utilisateur du conteneur (le conteneur NIM s'exécute en tant que nvs:1000 en interne), pas seulement par l'utilisateur hôte. Exécutez sudo chown 1000:1000 $LOCAL_NIM_CACHE après la création du répertoire pour que le conteneur puisse y écrire. Évitez les modes lisibles par tous — ils permettent à tout utilisateur local de remplacer les artefacts de modèle en cache. Évitez aussi -u "$(id -u):$(id -g)" sur docker run — /opt/nim/workspace à l'intérieur du conteneur n'est pas inscriptible pour des UIDs arbitraires. Si vous voyez I/O error Permission denied (os error 13) pendant le téléchargement du modèle, le problème vient de la propriété du répertoire hôte.

Instructions

Faites correspondre la tâche de l'utilisateur à un fichier de référence et chargez uniquement ce fichier ; les références sont détaillées, la divulgation progressive garde le contexte serré.
Routez les demandes de configuration pour les drivers, Docker, Container Toolkit et NGC vers references/setup.md.
Routez la compatibilité GPU, la disponibilité du déploiement et les vérifications de santé des conteneurs vers references/deployment-readiness-checks.md.
Routez le choix de modèle dans ASR, TTS et NMT vers references/model-selection.md.
Routez le déploiement ou l'inférence ASR pour Parakeet, Canary, Whisper et Nemotron ASR Streaming vers references/asr.md.
Routez le déploiement ASR entraîné personnalisé (.nemo → RMIR → NIM) vers references/asr-custom.md.
Routez la configuration du pipeline ASR pour VAD, diarization, modèles de langage et taille de chunk vers references/pipelines.md.
Routez le déploiement ou l'inférence TTS pour Magpie vers references/tts.md.
Routez le déploiement ou l'inférence NMT pour Riva Translate, paires de langues et balises DNT vers references/nmt.md.

Source de vérité

Pour les détails par version — catalogue de modèles actuel, IDs de conteneur, IDs de fonction, listes de voix, minimums VRAM, support de fonctionnalités par modèle — consultez ou ouvrez la documentation NVIDIA canonique plutôt que de vous fier au texte dans ce SKILL.md ou les références. Chaque fichier de référence inclut sa propre table de routage vers les pages de documentation pertinentes.

Pages d'accueil de haut niveau :

Sujet	URL
Matrice de support ASR	https://docs.nvidia.com/nim/speech/latest/reference/support-matrix/asr.html
Matrice de support TTS	https://docs.nvidia.com/nim/speech/latest/reference/support-matrix/tts.html
Matrice de support NMT	https://docs.nvidia.com/nim/speech/latest/reference/support-matrix/nmt.html
Prérequis (driver / GPU / OS)	https://docs.nvidia.com/nim/speech/latest/get-started/prerequisites.html
Configuration du pipeline ASR	https://docs.nvidia.com/nim/speech/latest/asr/customization/pipeline-configuration.html
Personnalisation du runtime ASR	https://docs.nvidia.com/nim/speech/latest/asr/customization/customization.html
IDs de fonction cloud (par modèle)	`https://build.nvidia.com/<org>/<model>/api`
Catalogue NGC	https://catalog.ngc.nvidia.com/orgs/nim/teams/nvidia/models

Exemples

« Déployer un NIM ASR Parakeet » → chargez references/asr.md, suivez l'option B (auto-hébergé), étapes 1–4.

« Synthétiser de la parole avec Magpie » → chargez references/tts.md, suivez l'option A (cloud) ou l'option B (auto-hébergé).

« Traduire l'anglais vers l'allemand » → chargez references/nmt.md, suivez le flux en 4 étapes.

« Convertir mon .nemo affiné en NIM » → chargez references/asr-custom.md pour le pipeline en 4 phases et references/pipelines.md pour la configuration au moment de la construction.

« Mon GPU peut-il exécuter cela ? » → chargez references/deployment-readiness-checks.md et exécutez la vérification système en 6 étapes.

« Quel modèle Riva dois-je utiliser ? » → chargez references/model-selection.md, appliquez le cadre de décision, puis consultez la matrice de support pour le nom de modèle actuel spécifique.

Nommage et terminologie

Branding de la compétence : Nemotron Speech (nom public).
Nommage interne préservé : commandes (riva-build, riva-deploy, riva_streaming_asr_client), client Python (riva.client), espace de noms gRPC (nvidia.riva.asr.*), registre de conteneur (nvcr.io/nim/nvidia/*) et toutes les URLs de documentation NVIDIA utilisent toujours « Riva ». Ne renommez pas ces éléments dans le code, les commandes ou la documentation.

Dépannage

Pour les problèmes de runtime ou de modalité spécifiques à la tâche, utilisez le fichier de référence pertinent (references/<task>.md). Vérifications de disponibilité transversales :

Le conteneur ne devient pas prêt → references/deployment-readiness-checks.md (vérification système + table de vérification de santé)
La vérification de santé échoue → references/deployment-readiness-checks.md
docker pull depuis nvcr.io retourne 403 → references/setup.md (étape 5 — connexion Docker)
Image de base incorrecte / incompatibilité d'architecture de modèle → references/asr-custom.md (image de base phase 2)
Compatibilité VRAM / GPU → references/deployment-readiness-checks.md, puis vérifiez sur la matrice de support

Limitations

Architecture x86_64 uniquement — WSL2 sur Windows nécessite Podman et supporte un sous-ensemble de NIMs (voir references/setup.md)
Le déploiement auto-hébergé nécessite une licence NVIDIA AI Enterprise
L'inférence hébergée en cloud nécessite une NVIDIA_API_KEY active et un accès Internet
Le branding public de la compétence est « Nemotron Speech » ; les commandes, images de conteneur, imports Python (riva.client), services gRPC (nvidia.riva.*) et URLs de documentation NVIDIA utilisent toujours « Riva » — suivez la documentation et les catalogues officiels pour le nommage, ne renommez pas ces éléments dans les commandes ou le code

Prochaines étapes

Vérifiez la compatibilité du matériel : references/deployment-readiness-checks.md
Configurez l'environnement : references/setup.md
Choisissez un modèle : references/model-selection.md
Déployez : references/asr.md, references/tts.md ou references/nmt.md

nemotron-speech