Déployer et interroger un service d'inférence TAO

tao-run-inference-service

Ce skill fait partie du catalogue officiel de skills NVIDIA publié dans le repository nvidia/skills, qui regroupe des instructions portables permettant aux agents IA d'utiliser correctement les bibliothèques CUDA-X, les AI Blueprints et les outils de plateforme NVIDIA.

Rôle du skill

tao-run-inference-service guide un agent dans le cycle de vie complet d'un microservice d'inférence TAO : démarrage du conteneur avec résolution automatique de l'image, construction du payload JSON adapté à l'architecture réseau (cosmos-rl, cosmos-predict2.5, etc.), enregistrement du service dans un registre local, envoi de requêtes d'inférence compatibles vLLM, et arrêt propre du conteneur. Le skill orchestre ces étapes de façon agnostique à la plateforme puis délègue l'exécution effective au skill de plateforme correspondant (skills/platform/<platform>/SKILL.md).

Structure et références

Le SKILL.md est entièrement rédigé et opérationnel. Il s'appuie sur trois fichiers de référence situés dans son dossier :

references/service.yaml — mappings d'images, noms d'architectures valides, schéma du job payload et classification des secrets.
references/request.yaml — définition des endpoints, schéma des corps de requête et exemples de code.
references/code-templates.yaml — templates Python pour construire le payload, écrire le registre, vérifier la disponibilité et gérer les flux stop/request.

Ces fichiers de données sont séparés des instructions afin que le SKILL.md reste lisible et que les valeurs concrètes (versions d'images, noms de variables d'environnement) puissent évoluer indépendamment.

Sécurité et bonnes pratiques intégrées

Le skill impose une règle stricte de gestion des secrets : les valeurs sensibles (HF_TOKEN, TAO_API_KEY, etc.) ne sont jamais saisies manuellement ni interpolées dans le code généré. L'agent est instruit de les lire exclusivement via os.environ["VAR_NAME"] et d'indiquer à l'utilisateur quelle variable d'environnement configurer. De même, la résolution du service cible pour chaque requête exige un choix explicite de l'utilisateur en cas de services multiples actifs — l'agent ne peut pas silencieusement utiliser le pointeur "latest" quand plusieurs services coexistent.

Installation et utilisation

Ce skill s'installe via la CLI skills comme tout autre skill du catalogue NVIDIA. Une fois installé dans votre agent (Claude Code, Codex, Cursor, Kiro, etc.), il devient actif dès qu'une tâche liée au déploiement ou à l'interrogation d'un modèle TAO est détectée. Aucune configuration manuelle du SKILL.md n'est nécessaire : le fichier est complet et prêt à l'emploi.

tao-run-inference-service

Rôle du skill

Structure et références

Sécurité et bonnes pratiques intégrées

Installation et utilisation

Skills similaires