agent-observability-eval-bootstrap

Par datadog-labs · agent-skills

Skill Datadog Agent Skills : génère automatiquement une suite d'évaluateurs LLM-as-judge pour une application ML à partir de ses traces de production, avec publication en brouillon désactivé dans Datadog, émission de code Python SDK ou d'un spec JSON portable.

npx skills add https://github.com/datadog-labs/agent-skills --skill agent-observability-eval-bootstrap

agent-observability-eval-bootstrap

Ce skill fait partie du repo public datadog-labs/agent-skills, qui regroupe des skills officiels Datadog pour agents IA (Claude Code, Cursor, Codex CLI, etc.). Il s'inscrit dans la suite agent-observability, un ensemble de six skills couvrant le cycle complet d'évaluation des applications LLM en production.

Ce que fait ce skill

agent-observability-eval-bootstrap analyse des traces de production d'une application ML (ml_app) pour en extraire des dimensions de qualité, puis propose et génère une suite d'évaluateurs prête à l'emploi. Par défaut (publish), il crée les évaluateurs LLM-judge directement dans Datadog en tant que brouillons désactivés (enabled: false) — aucun évaluateur ne score des spans tant que l'utilisateur ne l'active pas manuellement dans l'UI. Deux modes alternatifs permettent d'obtenir du code Python SDK (--sdk-code) via BaseEvaluator / LLMJudge de ddtrace.llmobs, ou un spec JSON portable (--data-only) utilisable avec n'importe quel framework d'évaluation. Un quatrième mode (--emit-dataset) extrait les traces sous forme de DatasetRecordRaw[] pour alimenter un dataset Datadog, sans générer d'évaluateurs.

Workflow en phases

Le skill suit un workflow structuré en phases : détection du backend disponible (MCP server Datadog ou CLI pup), cartographie de la couverture d'évaluation existante (Phase 0), exploration des traces pour identifier les dimensions de qualité — span-scope, trace-scope ou session-scope selon la nature du jugement (Phase 1), proposition d'une suite de 8 à 15 évaluateurs avec un checkpoint de confirmation obligatoire (Phase 2), puis génération de l'artefact choisi (Phase 3). Le skill peut être amorcé à froid ou à partir d'un rapport RCA produit par le skill agent-observability-trace-rca.

Intégration dans la suite agent-observability

Ce skill s'utilise typiquement après agent-observability-trace-rca (diagnostic des échecs) et avant agent-observability-eval-pipeline (orchestration complète des huit phases). Il peut également être invoqué de manière autonome avec une ml_app et une fenêtre temporelle. L'installation se fait via npx skills add datadog-labs/agent-skills --skill agent-observability-eval-bootstrap ou par copie directe du dossier dans ~/.claude/skills. Le skill requiert le MCP server LLMO de Datadog ou le CLI pup pour accéder aux traces et publier les évaluateurs.

Skills similaires