nemo-evaluator-plugin

Par nvidia · skills

À utiliser pour travailler sur le CLI du plugin Evaluator, les jobs, les specs SDK-backed, ou les skills Evaluator appartenant au plugin.

npx skills add https://github.com/nvidia/skills --skill nemo-evaluator-plugin

Plugin Evaluator

Utilisez cette skill quand la tâche concerne les fonctionnalités Evaluator sur l'architecture de plugin. La surface CLI supportée par plugin est nemo evaluator ; le groupe de commandes API généré hérité nemo evaluation n'est pas la surface cible pour les nouvelles orientations.

Surfaces Actuelles

  • une surface health minimale nemo.services
  • une entrée supportée par SDK nemo.jobs, evaluator.evaluate, pour l'exécution de métriques inline
  • un namespace CLI et SDK minimal
  • des répertoires de docs et skills possédés par le plugin

Commandes CLI

Prérequis : activez l'environnement virtuel Python avant d'invoquer la CLI nemo : source .venv/bin/activate.

Vérifiez l'état du plugin depuis la CLI :

nemo evaluator info

Inspectez le contrat de job enregistré :

nemo evaluator evaluate explain

Exécutez une métrique exact-match inline :

nemo evaluator evaluate run --spec '{"metric":{"type":"exact-match","reference":"{{item.expected}}","candidate":"{{item.model_output}}"},"dataset":[{"expected":"blue","model_output":"Blue"},{"expected":"Jupiter","model_output":"Saturn"}],"params":{"parallelism":2}}'

Exécutez une métrique string-check inline :

nemo evaluator evaluate run --spec '{"metric":{"type":"string-check","operation":"contains","left_template":"{{item.answer}}","right_template":"NeMo"},"dataset":[{"answer":"NeMo Platform supports evaluator plugins."}]}'

Pour les specs non triviales, préférez --spec-file au JSON inline en shell :

nemo evaluator evaluate run --spec-file evaluation-spec.json

Soumettez la même spec à un cluster :

nemo evaluator evaluate submit \
  --spec-file evaluation-spec.json \
  --workspace default \
  --profile default

Utilisez nemo evaluator evaluate explain comme source de vérité pour le schéma de job du plugin actuel.

Specs d'Évaluation

Le job actuel accepte des specs d'évaluation inline supportées par SDK. À haut niveau, les specs décrivent :

  • metric : configuration de métrique Evaluator SDK inline ou métriques benchmark
  • dataset : lignes inline à évaluer
  • params : paramètres d'exécution optionnels du SDK Evaluator
  • target : cible de modèle ou agent optionnelle pour l'évaluation en ligne

Pour les notes de configuration LLM Judge, voir Notes LLM Judge.

Pour l'authentification par clé API evaluator, voir Authentification API Evaluator.

Pour le dépannage local et cluster, voir Dépannage d'Évaluation.

Appelez la route de statut supportée par SDK via le SDK de la plateforme :

from nemo_platform import NeMoPlatform

client = NeMoPlatform(base_url="http://localhost:8000")
status = client.evaluator.plugin_status()

Décisions Suivantes

Avant de remplacer les stubs, vérifiez la surface cible :

  1. adaptation de route de service
  2. stratégie de soumission ou compilation de job
  3. séparation de packaging entre les dépendances de service et de tâche

Skills similaires