physical-ai-video-data-augmentation

Par nvidia · skills

Skill NVIDIA officiel pour orchestrer les workflows d'augmentation de données vidéo et d'auto-labeling Physical AI sur la plateforme OSMO.

npx skills add https://github.com/nvidia/skills --skill physical-ai-video-data-augmentation

Physical AI Video Data Augmentation Workflow Orchestrator

Ce skill fait partie du catalogue officiel de skills NVIDIA publié dans le repository nvidia/skills, qui regroupe des instructions portables destinées aux agents IA pour utiliser correctement les outils, bibliothèques et plateformes NVIDIA. Ce skill est le skill principal d'orchestration pour les workflows de Video Data Augmentation (VDA) exécutés sur OSMO, la plateforme d'orchestration de workflows de NVIDIA.

Rôle et périmètre

Ce skill prend en charge l'ensemble du cycle de vie d'un workflow VDA : sélection du flow approprié, vérifications préalables (preflight), décisions sur le chemin d'inférence, interpolation des paramètres au moment du submit, monitoring de l'exécution et récupération des sorties. Il couvre quatre flows principaux — auto_labeling, augmentation_and_al, e2e et e2e_super_resolution — chacun correspondant à un besoin différent en matière d'augmentation de vidéos et de pseudo-labeling pour l'entraînement de modèles Physical AI.

Les skills composants associés (infrastructure, NIM, etc.) sont référencés en mode consultation uniquement : ce skill est le seul à piloter l'exécution de bout en bout.

Ce que fait ce skill concrètement

Une fois installé dans un agent compatible (Claude Code, Cursor, Codex, Kiro, etc. via npx skills add nvidia/skills), ce skill guide l'agent pour : vérifier les prérequis (clés NGC, token Hugging Face, accès OSMO CLI, disponibilité des GPU pools), dériver les valeurs d'interpolation correctes depuis le backend de stockage actif, soumettre le workflow OSMO avec les bons paramètres, surveiller la progression et télécharger les artefacts de sortie. Pour les flows d'augmentation, il impose également la génération d'une comparaison côte-à-côte (side-by-side) entre vidéo originale et vidéo augmentée.

Points d'attention

Ce skill impose un comportement autonome par défaut : l'agent ne doit pas interrompre l'exécution pour demander confirmation entre les étapes réussies, et ne doit pas inventer de données d'entrée. Il s'appuie sur des scripts présents dans le dossier scripts/ du skill et sur des fichiers de configuration YAML dans assets/configs/osmo/. La documentation de référence par flow se trouve dans references/flows/*.md.

Skills similaires