Entraînement Normal
Fine-tuning supervisé standard : entraîner un modèle sur un dataset labellisé, optionnellement évaluer, puis optionnellement exporter. Le workflow TAO le plus courant pour adapter un modèle pré-entraîné à un nouveau dataset.
Étapes
- train — exécuté via AutoML quand le modèle sélectionné a
automl_enabled: trueetautoml_policyestauto; définissezautoml_policy=offpour un simple run d'entraînement unique - eval — exécuté si
eval_dataset_uriest résolu - export — optionnel, sur demande de l'utilisateur après entraînement
Prérequis
Obligatoires
- model : Un modèle TAO compatible (par exemple, clip, nvdinov2, grounding_dino)
- train_dataset_uri : URI du dataset d'entraînement (par exemple,
s3://bucket/train/) - platform : Demander à partir de la liste des plateformes supportées générée :
${TAO_SKILL_BANK_PATH:-~/tao-skills-external}/scripts/list_tao_platforms.py --format text - confirmation d'image container : résoudre l'image par défaut à partir de la config du modèle/action sélectionné, l'afficher à l'utilisateur, et demander une confirmation ou
image=<override>avant de créer les fichiers runner ou de soumettre l'entraînement.
Optionnels
- eval_dataset_uri : Certaines compétences de modèle le marquent comme obligatoire — vérifier la compétence du modèle résolue avant de le traiter comme optionnel.
- base_checkpoint : S'il n'est pas fourni, defaults au checkpoint pré-entraîné NGC listé dans la compétence du modèle, ou entraîne à partir de zéro s'il n'existe pas de checkpoint NGC.
- automl_policy :
autopar défaut ; définissezoffpour contourner AutoML au niveau du modèle pour ce run tout en laissant les métadonnées du modèle inchangées. - image override : Utiliser
image=<override>pour épingler une build spécifique du toolkit TAO après révision de la valeur par défaut résolue.
Intake de Lancement
Une fois que l'utilisateur confirme qu'il veut ce workflow standard train/eval/export,
demander sur quelle plateforme supportée il compte exécuter. Générer les choix avec
scripts/list_tao_platforms.py --format text ; ne pas scanner les docs ou
dossiers de plateformes.
Avant de créer un runner train simple, inspecter les métadonnées du modèle sélectionné
avec scripts/list_tao_models.py --scope automl --format json ou lire
skills/models/<network>/references/skill_info.yaml. Si automl_enabled est true et
l'helper rapporte un schéma train valide pour ce modèle, router la stage train
via skills/applications/tao-run-automl par défaut. Rester sur le chemin train simple
uniquement quand automl_policy=off, l'utilisateur demande explicitement pas de HPO/AutoML, ou AutoML
est activé mais ne peut pas être exécuté parce que le schéma train du modèle n'est pas encore empaqueté.
Demander aussi si le monitoring de longue durée doit rester activé et combien de minutes entre les mises à jour de statut. Défauts : activé, 5 minutes.
Après que le modèle/action soient connus, exécuter scripts/resolve_tao_image.py --model <network> --action train --format text et demander si utiliser l'image résolue ou un image=<override>. Ne pas créer le runner tao-train-single-step jusqu'à ce que l'
image soit confirmée.
Après la sélection de la plateforme, exécuter
scripts/list_tao_platforms.py --platform <platform> --format text et demander
uniquement les credentials pertinentes pour cette plateforme, plus tout credentials du modèle sélectionné. Ne pas demander les credentials non liées de plateforme.