Plugin Evaluator
Utilisez cette skill quand la tâche concerne les fonctionnalités Evaluator sur l'architecture de plugin. La surface CLI supportée par plugin est nemo evaluator ; le groupe de commandes API généré hérité nemo evaluation n'est pas la surface cible pour les nouvelles orientations.
Surfaces Actuelles
- une surface health minimale
nemo.services - une entrée supportée par SDK
nemo.jobs,evaluator.evaluate, pour l'exécution de métriques inline - un namespace CLI et SDK minimal
- des répertoires de docs et skills possédés par le plugin
Commandes CLI
Prérequis : activez l'environnement virtuel Python avant d'invoquer la CLI
nemo:source .venv/bin/activate.
Vérifiez l'état du plugin depuis la CLI :
nemo evaluator info
Inspectez le contrat de job enregistré :
nemo evaluator evaluate explain
Exécutez une métrique exact-match inline :
nemo evaluator evaluate run --spec '{"metric":{"type":"exact-match","reference":"{{item.expected}}","candidate":"{{item.model_output}}"},"dataset":[{"expected":"blue","model_output":"Blue"},{"expected":"Jupiter","model_output":"Saturn"}],"params":{"parallelism":2}}'
Exécutez une métrique string-check inline :
nemo evaluator evaluate run --spec '{"metric":{"type":"string-check","operation":"contains","left_template":"{{item.answer}}","right_template":"NeMo"},"dataset":[{"answer":"NeMo Platform supports evaluator plugins."}]}'
Pour les specs non triviales, préférez --spec-file au JSON inline en shell :
nemo evaluator evaluate run --spec-file evaluation-spec.json
Soumettez la même spec à un cluster :
nemo evaluator evaluate submit \
--spec-file evaluation-spec.json \
--workspace default \
--profile default
Utilisez nemo evaluator evaluate explain comme source de vérité pour le schéma de job du plugin actuel.
Specs d'Évaluation
Le job actuel accepte des specs d'évaluation inline supportées par SDK. À haut niveau, les specs décrivent :
metric: configuration de métrique Evaluator SDK inline ou métriques benchmarkdataset: lignes inline à évaluerparams: paramètres d'exécution optionnels du SDK Evaluatortarget: cible de modèle ou agent optionnelle pour l'évaluation en ligne
Pour les notes de configuration LLM Judge, voir Notes LLM Judge.
Pour l'authentification par clé API evaluator, voir Authentification API Evaluator.
Pour le dépannage local et cluster, voir Dépannage d'Évaluation.
Appelez la route de statut supportée par SDK via le SDK de la plateforme :
from nemo_platform import NeMoPlatform
client = NeMoPlatform(base_url="http://localhost:8000")
status = client.evaluator.plugin_status()
Décisions Suivantes
Avant de remplacer les stubs, vérifiez la surface cible :
- adaptation de route de service
- stratégie de soumission ou compilation de job
- séparation de packaging entre les dépendances de service et de tâche