llm-obs-session-classify

Par datadog-labs · agent-skills

Skill de classification de sessions et traces LLM Observability Datadog : produit un verdict de satisfaction (yes/partial/no) via trace, RUM et audit trail.

npx skills add https://github.com/datadog-labs/agent-skills --skill llm-obs-session-classify

Skill llm-obs-session-classify

Ce skill fait partie du répertoire dd-llmo du repository public datadog-labs/agent-skills, qui regroupe des skills Datadog pour les agents IA (Claude Code, Cursor, Codex CLI, etc.). Il s'intitule eval-session-classify dans sa définition interne et constitue l'un des quatre skills LLM Observability du repo, aux côtés de experiment-analyzer, eval-trace-rca et eval-bootstrap.

Ce que fait ce skill

Il classifie si l'intention d'un utilisateur a été satisfaite lors d'une session ou d'une trace LLM Observability Datadog. Le skill supporte trois modes d'entrée : session_id (une session CMD+I assistant unique, avec signaux RUM), trace_id (une trace LLM Obs unique, sans RUM), et ml_app (échantillonnage et classification en lot de plusieurs sessions ou traces d'une application LLM donnée). La sortie par défaut est compacte — un verdict (yes / partial / no) accompagné d'une phrase de justification — avec un mode verbeux disponible sur demande.

Architecture du skill

Le SKILL.md est un document d'instructions très détaillé, pas un squelette vide. Il définit une logique de détection du backend (MCP server Datadog ou CLI pup), une cascade de récupération de contenu (quatre niveaux : agent loop, spans LLM enfants, contenu I/O du span racine, signaux structurels seuls), des étapes de récupération de signaux RUM comportementaux et d'audit trail, ainsi qu'une taxonomie de codes d'échec (wrong_answer, hallucination, broke_existing_state, etc.). Une annexe Tool Reference traduit chaque appel MCP en commande pup équivalente pour le mode CLI.

Comment l'utiliser

Après avoir copié le dossier dd-llmo/eval-session-classify dans ~/.claude/skills et configuré le MCP server LLMO (datadog-llmo-mcp avec toolsets llmobs et rum), on invoque le skill directement dans Claude Code : /eval-session-classify <session_id>, ou en passant un trace_id ou un nom d'app (ml_app). Le skill peut être appelé seul pour évaluer la satisfaction utilisateur, ou alimenter en aval les skills eval-trace-rca et eval-bootstrap dans un pipeline d'évaluation LLM.

Skills similaires