Plugin Evaluator

Utilisez cette skill quand la tâche concerne les fonctionnalités Evaluator sur l'architecture de plugin. La surface CLI supportée par plugin est nemo evaluator ; le groupe de commandes API généré hérité nemo evaluation n'est pas la surface cible pour les nouvelles orientations.

Surfaces Actuelles

une surface health minimale nemo.services
une entrée supportée par SDK nemo.jobs, evaluator.evaluate, pour l'exécution de métriques inline
un namespace CLI et SDK minimal
des répertoires de docs et skills possédés par le plugin

Commandes CLI

Prérequis : activez l'environnement virtuel Python avant d'invoquer la CLI nemo : source .venv/bin/activate.

Vérifiez l'état du plugin depuis la CLI :

nemo evaluator info

Inspectez le contrat de job enregistré :

nemo evaluator evaluate explain

Exécutez une métrique exact-match inline :

nemo evaluator evaluate run --spec '{"metric":{"type":"exact-match","reference":"{{item.expected}}","candidate":"{{item.model_output}}"},"dataset":[{"expected":"blue","model_output":"Blue"},{"expected":"Jupiter","model_output":"Saturn"}],"params":{"parallelism":2}}'

Exécutez une métrique string-check inline :

nemo evaluator evaluate run --spec '{"metric":{"type":"string-check","operation":"contains","left_template":"{{item.answer}}","right_template":"NeMo"},"dataset":[{"answer":"NeMo Platform supports evaluator plugins."}]}'

Pour les specs non triviales, préférez --spec-file au JSON inline en shell :

nemo evaluator evaluate run --spec-file evaluation-spec.json

Soumettez la même spec à un cluster :

nemo evaluator evaluate submit \
  --spec-file evaluation-spec.json \
  --workspace default \
  --profile default

Utilisez nemo evaluator evaluate explain comme source de vérité pour le schéma de job du plugin actuel.

Specs d'Évaluation

Le job actuel accepte des specs d'évaluation inline supportées par SDK. À haut niveau, les specs décrivent :

metric : configuration de métrique Evaluator SDK inline ou métriques benchmark
dataset : lignes inline à évaluer
params : paramètres d'exécution optionnels du SDK Evaluator
target : cible de modèle ou agent optionnelle pour l'évaluation en ligne

Pour les notes de configuration LLM Judge, voir Notes LLM Judge.

Pour l'authentification par clé API evaluator, voir Authentification API Evaluator.

Pour le dépannage local et cluster, voir Dépannage d'Évaluation.

Appelez la route de statut supportée par SDK via le SDK de la plateforme :

from nemo_platform import NeMoPlatform

client = NeMoPlatform(base_url="http://localhost:8000")
status = client.evaluator.plugin_status()

Décisions Suivantes

Avant de remplacer les stubs, vérifiez la surface cible :

adaptation de route de service
stratégie de soumission ou compilation de job
séparation de packaging entre les dépendances de service et de tâche

nemo-evaluator-plugin

Plugin Evaluator

Surfaces Actuelles

Commandes CLI

Specs d'Évaluation

Décisions Suivantes

Skills similaires