Nemo Gym Reward Profiling

Invocation Check

Utilisez cette skill quand l'utilisateur souhaite lancer, comprendre ou légèrement modifier le reward profiling de Nemo Gym. Orientez la réponse autour du workflow normal :

ng_run démarre les serveurs de modèle/ressources, ng_collect_rollouts écrit les artifacts de rollout, et ng_reward_profile génère la sortie de profiling à partir de ces artifacts.

Si l'utilisateur débogue principalement un job échoué ou une stack trace, utilisez d'abord la skill nemo-gym-debugging.

Basic Workflow

Identifiez les chemins de config d'environnement et l'input JSONL.
Démarrez les serveurs Gym avec ng_run.
Collectez les rollouts avec ng_collect_rollouts ; cela écrit rollouts.jsonl et *_materialized_inputs.jsonl.
Lancez ng_reward_profile sur les inputs matérialisés et le rollout JSONL pour générer *_reward_profiling.jsonl.
Inspectez les nombre de lignes et les lignes de profil.

Les rollouts répétés sont le principal levier de profiling. num_repeats=1 est valide, mais les moyennes et variances par tâche n'ont de sens qu'avec plusieurs rollouts par tâche.

Core Concepts

*_materialized_inputs.jsonl : inputs de collection étendus après expansion des répétitions, defaults de l'agent, et assignation des ids de tâche/rollout.
rollouts.jsonl : un rollout/résultat complété par ligne d'input matérialisé.
*_reward_profiling.jsonl : une ligne de profil résumée par tâche originale avec au moins un rollout complété.
_ng_task_index : id de tâche/sample originale.
_ng_rollout_index : id de rollout répété pour cette tâche.
rollout_infos : info compacte par rollout à l'intérieur de chaque ligne de profil de tâche, incluant reward, usage de tokens, et métriques numériques de rollout quand disponibles.

Conservez l'analyse reward-to-length ou reward-to-token en fonction de _ng_task_index et _ng_rollout_index.

Reference Loading

Chargez les références seulement quand l'utilisateur a besoin de ce détail :

Lisez references/quick-start.md pour un template de commande générique et la séquence de run minimale.
Lisez references/output-format.md pour expliquer les inputs matérialisés, le rollout JSONL, les lignes de profil de reward, rollout_infos, et le profiling partiel.

Practical Defaults

Traitez ng_reward_profile comme l'étape de reward profiling ; la collecte de rollouts n'écrit pas les fichiers de profil de reward.
Lancez le profiling strict par défaut. Si la collecte de rollout s'est arrêtée tôt, utilisez ++allow_partial_rollouts=True pour profiler les rollouts complétés et abandonner les lignes d'input originales sans rollout complété.
Fiez-vous à l'aide CLI du checkout cible et à nemo_gym/reward_profile.py plutôt qu'à la mémoire si les flags diffèrent.

nemo-gym-reward-profiling