tao-train-single-step

Par nvidia · skills

Flux de travail standard entraînement/évaluation/export en une étape pour tout modèle TAO. À utiliser lors de l'entraînement d'un modèle TAO sur un jeu de données.

npx skills add https://github.com/nvidia/skills --skill tao-train-single-step

Entraînement Normal

Fine-tuning supervisé standard : entraîner un modèle sur un dataset labellisé, optionnellement évaluer, puis optionnellement exporter. Le workflow TAO le plus courant pour adapter un modèle pré-entraîné à un nouveau dataset.

Étapes

  1. train — exécuté via AutoML quand le modèle sélectionné a automl_enabled: true et automl_policy est auto ; définissez automl_policy=off pour un simple run d'entraînement unique
  2. eval — exécuté si eval_dataset_uri est résolu
  3. export — optionnel, sur demande de l'utilisateur après entraînement

Prérequis

Obligatoires

  • model : Un modèle TAO compatible (par exemple, clip, nvdinov2, grounding_dino)
  • train_dataset_uri : URI du dataset d'entraînement (par exemple, s3://bucket/train/)
  • platform : Demander à partir de la liste des plateformes supportées générée : ${TAO_SKILL_BANK_PATH:-~/tao-skills-external}/scripts/list_tao_platforms.py --format text
  • confirmation d'image container : résoudre l'image par défaut à partir de la config du modèle/action sélectionné, l'afficher à l'utilisateur, et demander une confirmation ou image=<override> avant de créer les fichiers runner ou de soumettre l'entraînement.

Optionnels

  • eval_dataset_uri : Certaines compétences de modèle le marquent comme obligatoire — vérifier la compétence du modèle résolue avant de le traiter comme optionnel.
  • base_checkpoint : S'il n'est pas fourni, defaults au checkpoint pré-entraîné NGC listé dans la compétence du modèle, ou entraîne à partir de zéro s'il n'existe pas de checkpoint NGC.
  • automl_policy : auto par défaut ; définissez off pour contourner AutoML au niveau du modèle pour ce run tout en laissant les métadonnées du modèle inchangées.
  • image override : Utiliser image=<override> pour épingler une build spécifique du toolkit TAO après révision de la valeur par défaut résolue.

Intake de Lancement

Une fois que l'utilisateur confirme qu'il veut ce workflow standard train/eval/export, demander sur quelle plateforme supportée il compte exécuter. Générer les choix avec scripts/list_tao_platforms.py --format text ; ne pas scanner les docs ou dossiers de plateformes.

Avant de créer un runner train simple, inspecter les métadonnées du modèle sélectionné avec scripts/list_tao_models.py --scope automl --format json ou lire skills/models/<network>/references/skill_info.yaml. Si automl_enabled est true et l'helper rapporte un schéma train valide pour ce modèle, router la stage train via skills/applications/tao-run-automl par défaut. Rester sur le chemin train simple uniquement quand automl_policy=off, l'utilisateur demande explicitement pas de HPO/AutoML, ou AutoML est activé mais ne peut pas être exécuté parce que le schéma train du modèle n'est pas encore empaqueté.

Demander aussi si le monitoring de longue durée doit rester activé et combien de minutes entre les mises à jour de statut. Défauts : activé, 5 minutes.

Après que le modèle/action soient connus, exécuter scripts/resolve_tao_image.py --model <network> --action train --format text et demander si utiliser l'image résolue ou un image=<override>. Ne pas créer le runner tao-train-single-step jusqu'à ce que l' image soit confirmée.

Après la sélection de la plateforme, exécuter scripts/list_tao_platforms.py --platform <platform> --format text et demander uniquement les credentials pertinentes pour cette plateforme, plus tout credentials du modèle sélectionné. Ne pas demander les credentials non liées de plateforme.

Skills similaires