nemo-gym-reward-profiling

Par nvidia · skills

Utilisez ce guide pour aider les utilisateurs à démarrer avec le profilage de récompenses Nemo Gym. Couvre le workflow de base `ng_run`, `ng_collect_rollouts` et `ng_reward_profile`, les rollouts répétés, les inputs matérialisés, les artefacts JSONL de rollout, l'identité des tâches et des rollouts, l'inspection des sorties, le profilage partiel et les `rollout_infos`. Pour les jobs en échec, préférez nemo-gym-debugging.

npx skills add https://github.com/nvidia/skills --skill nemo-gym-reward-profiling

Nemo Gym Reward Profiling

Invocation Check

Utilisez cette skill quand l'utilisateur souhaite lancer, comprendre ou légèrement modifier le reward profiling de Nemo Gym. Orientez la réponse autour du workflow normal :

ng_run démarre les serveurs de modèle/ressources, ng_collect_rollouts écrit les artifacts de rollout, et ng_reward_profile génère la sortie de profiling à partir de ces artifacts.

Si l'utilisateur débogue principalement un job échoué ou une stack trace, utilisez d'abord la skill nemo-gym-debugging.

Basic Workflow

  1. Identifiez les chemins de config d'environnement et l'input JSONL.
  2. Démarrez les serveurs Gym avec ng_run.
  3. Collectez les rollouts avec ng_collect_rollouts ; cela écrit rollouts.jsonl et *_materialized_inputs.jsonl.
  4. Lancez ng_reward_profile sur les inputs matérialisés et le rollout JSONL pour générer *_reward_profiling.jsonl.
  5. Inspectez les nombre de lignes et les lignes de profil.

Les rollouts répétés sont le principal levier de profiling. num_repeats=1 est valide, mais les moyennes et variances par tâche n'ont de sens qu'avec plusieurs rollouts par tâche.

Core Concepts

  • *_materialized_inputs.jsonl : inputs de collection étendus après expansion des répétitions, defaults de l'agent, et assignation des ids de tâche/rollout.
  • rollouts.jsonl : un rollout/résultat complété par ligne d'input matérialisé.
  • *_reward_profiling.jsonl : une ligne de profil résumée par tâche originale avec au moins un rollout complété.
  • _ng_task_index : id de tâche/sample originale.
  • _ng_rollout_index : id de rollout répété pour cette tâche.
  • rollout_infos : info compacte par rollout à l'intérieur de chaque ligne de profil de tâche, incluant reward, usage de tokens, et métriques numériques de rollout quand disponibles.

Conservez l'analyse reward-to-length ou reward-to-token en fonction de _ng_task_index et _ng_rollout_index.

Reference Loading

Chargez les références seulement quand l'utilisateur a besoin de ce détail :

  • Lisez references/quick-start.md pour un template de commande générique et la séquence de run minimale.
  • Lisez references/output-format.md pour expliquer les inputs matérialisés, le rollout JSONL, les lignes de profil de reward, rollout_infos, et le profiling partiel.

Practical Defaults

  • Traitez ng_reward_profile comme l'étape de reward profiling ; la collecte de rollouts n'écrit pas les fichiers de profil de reward.
  • Lancez le profiling strict par défaut. Si la collecte de rollout s'est arrêtée tôt, utilisez ++allow_partial_rollouts=True pour profiler les rollouts complétés et abandonner les lignes d'input originales sans rollout complété.
  • Fiez-vous à l'aide CLI du checkout cible et à nemo_gym/reward_profile.py plutôt qu'à la mémoire si les flags diffèrent.

Skills similaires