Rôle et contexte
Ce skill fait partie du repo public datadog-labs/agent-skills, qui regroupe des skills Datadog pour agents IA (Claude Code, Codex CLI, Gemini CLI, Cursor, etc.). Il appartient à la famille agent-observability, un ensemble de six skills dédiés à la plateforme Datadog Agent Observability (aussi appelée LLM Observability ou LLMO).
Son rôle est précisément balisé : à l'invocation, il génère un fichier Python autonome — script .py ou notebook Jupyter .ipynb — qui structure une expérience LLM complète en utilisant le SDK officiel ddtrace.llmobs. Le fichier produit suit le style des notebooks de référence Datadog disponibles sur GitHub (DataDog/llm-observability/experiments/notebooks).
Ce que fait ce skill
Lors de son invocation, le skill orchestre un workflow en plusieurs étapes :
- Résolution du projet : il détecte le nom du service Python courant (via
pyproject.toml,setup.cfg,setup.pyou le répertoire courant) pour nommer l'expérience. - Introspection du code applicatif : il scanne le projet pour trouver les points d'entrée LLM réels (OpenAI, Anthropic, LangChain, LlamaIndex, Bedrock, etc.) et génère un
task_fncâblé sur la fonction découverte, évitant ainsi les placeholders génériques. - Résolution du dataset : inline (enregistrements JSON), depuis un fichier CSV local, ou en tirant un dataset existant depuis Datadog via
LLMObs.pull_dataset(...). - Génération des évaluateurs : 2 à 3 évaluateurs adaptés au style demandé (
function,classouremote) et à l'objectif de l'expérience (précision, appels d'outils, sorties structurées, RAG, régression). - Émission du fichier final : le fichier généré contient l'initialisation de
LLMObs.enable(), le dataset, la fonction de tâche, les évaluateurs, et l'appelexperiment.run()avec affichage de l'URL résultat.
Structure du fichier généré
Le fichier produit suit une séquence de huit sections numérotées : en-tête documentaire, chargement des variables d'environnement (sans dépendance python-dotenv), activation LLMObs.enable(), dataset, fonction de tâche, évaluateurs, définition de l'expérience, exécution et inspection des résultats. En format .ipynb, chaque section devient une paire cellule Markdown + cellule code.
Installation et utilisation
Pour installer ce skill dans Claude Code, copier le dossier entier dans ~/.claude/skills :
cp -r agent-observability/agent-observability-experiment-py-bootstrap ~/.claude/skills
Il requiert le toolset MCP LLMO de Datadog pour le beacon de télémétrie, mais fonctionne également sans backend MCP (le beacon est alors ignoré silencieusement, la génération de code n'est pas bloquée). L'invocation se fait via la commande /agent-observability-experiment-py-bootstrap dans Claude Code, avec des arguments optionnels (--format, --dataset, --purpose, --evaluator-style, etc.).