agent-observability-trace-rca
Ce skill fait partie du repository officiel datadog-labs/agent-skills, qui regroupe les skills Datadog pour les agents IA (Claude Code, Cursor, Gemini CLI, etc.). Il s'agit d'un skill pleinement fonctionnel et documenté — son SKILL.md contient un workflow complet, pas un simple placeholder.
Ce que fait ce skill
agent-observability-trace-rca guide Claude dans une analyse en cause racine (RCA) des défaillances d'applications LLM en production, en exploitant les traces stockées dans Datadog LLM Observability. À partir de signaux disponibles (verdicts d'un juge d'évaluation, erreurs runtime, ou anomalies structurelles), il parcourt l'arbre de spans du symptôme jusqu'à la cause réelle. Le skill sélectionne automatiquement l'un des trois modes d'analyse : Eval Signal (verdicts pass/fail d'évaluateurs configurés), Error Signal (erreurs runtime @status:error), ou Generic (anomalies de latence, boucles agent, echecs de retrieval RAG).
Workflow en 7 phases
Le skill orchestre un pipeline structuré : résolution des inputs et inférence du mode (Phase 0), collecte des spans problématiques (Phase 1), catégorisation initiale par open coding (Phase 2), affinement de la taxonomie par axial coding (Phase 3), navigation dans l'arbre de traces pour remonter à la cause racine (Phase 4), génération de recommandations concrètes avec extraits de prompts avant/après (Phase 5), compilation du rapport RCA (Phase 6), et proposition d'actions post-analyse (Phase 7). Des checkpoints obligatoires jalonnent les phases intermédiaires.
Backend et outils requis
Le skill supporte deux backends : le MCP server Datadog LLMO (datadog-llmo-mcp) ou le CLI pup (pup llm-obs). Il détecte automatiquement lequel est disponible au démarrage, avec un flag --backend pup pour forcer le CLI. Un appendice de correspondance MCP ↔ pup est inclus dans le skill pour toutes les opérations (recherche de spans, détails, contenu, traces, agent loop, évaluateurs, notebooks).
Installation et utilisation
Pour installer ce skill dans Claude Code, copier le dossier dans ~/.claude/skills via cp -r agent-observability/agent-observability-trace-rca ~/.claude/skills, puis connecter le MCP server LLMO. Il s'utilise en invoquant des requêtes en langage naturel comme What's wrong with <ml_app> over the last 24h ou Root-cause low scores on <eval_name>. Il s'intègre naturellement avec les autres skills du groupe Agent Observability : agent-observability-session-classify peut l'alimenter en corpus de traces classifiées, et agent-observability-eval-bootstrap peut consommer son output RCA pour générer des évaluateurs ciblant les patterns de défaillances découverts.