Nemo Gym Reward Profiling
Invocation Check
Utilisez cette skill quand l'utilisateur souhaite lancer, comprendre ou légèrement modifier le reward profiling de Nemo Gym. Orientez la réponse autour du workflow normal :
ng_run démarre les serveurs de modèle/ressources, ng_collect_rollouts écrit les artifacts de rollout, et ng_reward_profile génère la sortie de profiling à partir de ces artifacts.
Si l'utilisateur débogue principalement un job échoué ou une stack trace, utilisez d'abord la skill nemo-gym-debugging.
Basic Workflow
- Identifiez les chemins de config d'environnement et l'input JSONL.
- Démarrez les serveurs Gym avec
ng_run. - Collectez les rollouts avec
ng_collect_rollouts; cela écritrollouts.jsonlet*_materialized_inputs.jsonl. - Lancez
ng_reward_profilesur les inputs matérialisés et le rollout JSONL pour générer*_reward_profiling.jsonl. - Inspectez les nombre de lignes et les lignes de profil.
Les rollouts répétés sont le principal levier de profiling. num_repeats=1 est valide, mais les moyennes et variances par tâche n'ont de sens qu'avec plusieurs rollouts par tâche.
Core Concepts
*_materialized_inputs.jsonl: inputs de collection étendus après expansion des répétitions, defaults de l'agent, et assignation des ids de tâche/rollout.rollouts.jsonl: un rollout/résultat complété par ligne d'input matérialisé.*_reward_profiling.jsonl: une ligne de profil résumée par tâche originale avec au moins un rollout complété._ng_task_index: id de tâche/sample originale._ng_rollout_index: id de rollout répété pour cette tâche.rollout_infos: info compacte par rollout à l'intérieur de chaque ligne de profil de tâche, incluant reward, usage de tokens, et métriques numériques de rollout quand disponibles.
Conservez l'analyse reward-to-length ou reward-to-token en fonction de _ng_task_index et _ng_rollout_index.
Reference Loading
Chargez les références seulement quand l'utilisateur a besoin de ce détail :
- Lisez
references/quick-start.mdpour un template de commande générique et la séquence de run minimale. - Lisez
references/output-format.mdpour expliquer les inputs matérialisés, le rollout JSONL, les lignes de profil de reward,rollout_infos, et le profiling partiel.
Practical Defaults
- Traitez
ng_reward_profilecomme l'étape de reward profiling ; la collecte de rollouts n'écrit pas les fichiers de profil de reward. - Lancez le profiling strict par défaut. Si la collecte de rollout s'est arrêtée tôt, utilisez
++allow_partial_rollouts=Truepour profiler les rollouts complétés et abandonner les lignes d'input originales sans rollout complété. - Fiez-vous à l'aide CLI du checkout cible et à
nemo_gym/reward_profile.pyplutôt qu'à la mémoire si les flags diffèrent.