agent-observability-eval-pipeline

Par datadog-labs · agent-skills

Skill d'orchestration en six phases pour Datadog Agent Observability : classifie les traces, effectue une RCA, génère des évaluateurs, crée un dataset, lance une expérience et analyse les résultats.

npx skills add https://github.com/datadog-labs/agent-skills --skill agent-observability-eval-pipeline

agent-observability-eval-pipeline

Ce skill est un orchestrateur pédagogique en six phases destiné aux développeurs d'applications LLM déjà instrumentées avec Datadog Agent Observability. Il enchaîne de manière déterministe les sous-skills agent-observability-session-classify, agent-observability-trace-rca, agent-observability-eval-bootstrap, agent-observability-experiment-py-bootstrap et agent-observability-experiment-analyzer en une pipeline guidée, avec une bannière explicative et un checkpoint à chaque étape.

Ce que fait ce skill

Le skill s'invoque avec un nom d'application LLM (ml_app) et parcourt six phases : (1) classification des traces de production, (2) analyse des causes racines des échecs, (3) génération d'une suite d'évaluateurs ciblés, (4) constitution et publication d'un dataset Datadog, (5) génération et exécution d'un script d'expérience Python, (6) analyse des résultats. Chaque phase produit un artefact persisté dans <output-dir>/state/ et attend une confirmation explicite de l'utilisateur avant de continuer — il n'y a jamais d'avance automatique.

Flexibilité d'entrée et de sortie

L'argument --stop-after <phase> permet de terminer la pipeline après n'importe quelle phase (par exemple --stop-after eval-bootstrap reproduit le comportement classique du pipeline d'évaluation sans aller jusqu'aux expériences). L'argument --start-at <phase> permet de reprendre une exécution précédente depuis n'importe quelle étape en chargeant les artefacts d'état déjà produits. Les deux options sont combinables pour exécuter un sous-ensemble continu de phases.

Backend et infrastructure

Le skill détecte automatiquement au démarrage s'il doit fonctionner en mode MCP (via le serveur datadog-llmo-mcp) ou en mode pup (via le CLI pup). Ce choix s'applique à l'ensemble de la pipeline et à tous les sous-skills invoqués — il n'est pas réévalué entre les phases. Un precheck initial vérifie la présence de traces récentes pour le ml_app demandé, résout les credentials Datadog et crée le répertoire de sortie avant de lancer la Phase 1. Ce skill fait partie du repository public datadog-labs/agent-skills, qui regroupe l'ensemble des skills Datadog pour agents IA (Claude Code, Cursor, Gemini CLI, etc.).

Skills similaires