tao-generate-video-reasoning-annotations

Par nvidia · skills

Skill NVIDIA officiel pour générer des datasets d'entraînement Chain-of-Thought à partir de vidéos brutes, via un pipeline multi-étapes de captioning, descriptions structurées et paires QA avec traces de raisonnement.

npx skills add https://github.com/nvidia/skills --skill tao-generate-video-reasoning-annotations

Rôle du skill

Ce skill fait partie du catalogue officiel de skills vérifiés NVIDIA, publié dans le repository nvidia/skills. Il enseigne à un agent AI comment orchestrer le pipeline video_reasoning_annotation de TAO Toolkit pour transformer des vidéos brutes en données d'entraînement structurées au format Chain-of-Thought (CoT).

Concrètement, le skill prend en charge toute la séquence allant du filtrage et de la classification des vidéos (Step 0) jusqu'à la génération de paires QA avec traces de raisonnement (Step 3) et l'export au format tao-vl-reason-v1.0 (Step 4). Les étapes 0 et 1 font appel à un VLM (Gemini, Qwen via vLLM, etc.) pour analyser visuellement les vidéos ; les étapes 2 et 3 sont des appels texte-vers-texte, compatibles avec un LLM plus léger.

Ce que fait le skill en pratique

Lorsqu'un utilisateur décrit une tâche comme « créer des données d'entraînement vidéo », « générer un dataset QA à partir de vidéos CCTV » ou « construire des traces CoT pour la compréhension vidéo », le skill guide l'agent à travers une consultation structurée : chemin des vidéos, domaine (général, traffic, warehouse, ou custom), mode de classification anomalie/normal, configuration de l'endpoint VLM/LLM, et recommandation d'un pilot run sur 5 à 10 vidéos avant un passage à l'échelle.

Le pipeline supporte nativement la reprise après interruption — chaque étape ignore les vidéos déjà traitées — ce qui le rend sûr à relancer après une modification de prompt.

Domaines et personnalisation des prompts

Le skill propose des modules de prompts prêts à l'emploi pour les domaines général, trafic et entrepôt industriel. Pour tout autre domaine, il oriente l'utilisateur vers un atelier de domain adaptation (references/domain_adaptation.md) qui guide la personnalisation des 26 clés du prompt_template. Les modules prompts_traffic.py et prompts_warehouse.py servent de références concrètes.

Installation et utilisation

Comme tous les skills du repo nvidia/skills, ce skill s'installe via la CLI standard :

npx skills add nvidia/skills --skill tao-generate-video-reasoning-annotations

Une fois installé, l'agent s'appuie sur ses instructions pour générer le fichier de spec YAML, construire la commande auto_label generate, et accompagner l'utilisateur étape par étape — depuis la configuration de l'endpoint jusqu'à l'inspection qualitative des sorties JSONL dans results_dir/.

Skills similaires