agent-observability-experiment-py-bootstrap

Par datadog-labs · agent-skills

Skill Claude Code (datadog-labs/agent-skills) qui génère un client Python d'expérimentation autonome utilisant le SDK `ddtrace.llmobs`, sous forme de script `.py` ou notebook `.ipynb`.

npx skills add https://github.com/datadog-labs/agent-skills --skill agent-observability-experiment-py-bootstrap

Rôle et contexte

Ce skill fait partie du repo public datadog-labs/agent-skills, qui regroupe des skills Datadog pour agents IA (Claude Code, Codex CLI, Gemini CLI, Cursor, etc.). Il appartient à la famille agent-observability, un ensemble de six skills dédiés à la plateforme Datadog Agent Observability (aussi appelée LLM Observability ou LLMO).

Son rôle est précisément balisé : à l'invocation, il génère un fichier Python autonome — script .py ou notebook Jupyter .ipynb — qui structure une expérience LLM complète en utilisant le SDK officiel ddtrace.llmobs. Le fichier produit suit le style des notebooks de référence Datadog disponibles sur GitHub (DataDog/llm-observability/experiments/notebooks).

Ce que fait ce skill

Lors de son invocation, le skill orchestre un workflow en plusieurs étapes :

  • Résolution du projet : il détecte le nom du service Python courant (via pyproject.toml, setup.cfg, setup.py ou le répertoire courant) pour nommer l'expérience.
  • Introspection du code applicatif : il scanne le projet pour trouver les points d'entrée LLM réels (OpenAI, Anthropic, LangChain, LlamaIndex, Bedrock, etc.) et génère un task_fn câblé sur la fonction découverte, évitant ainsi les placeholders génériques.
  • Résolution du dataset : inline (enregistrements JSON), depuis un fichier CSV local, ou en tirant un dataset existant depuis Datadog via LLMObs.pull_dataset(...).
  • Génération des évaluateurs : 2 à 3 évaluateurs adaptés au style demandé (function, class ou remote) et à l'objectif de l'expérience (précision, appels d'outils, sorties structurées, RAG, régression).
  • Émission du fichier final : le fichier généré contient l'initialisation de LLMObs.enable(), le dataset, la fonction de tâche, les évaluateurs, et l'appel experiment.run() avec affichage de l'URL résultat.

Structure du fichier généré

Le fichier produit suit une séquence de huit sections numérotées : en-tête documentaire, chargement des variables d'environnement (sans dépendance python-dotenv), activation LLMObs.enable(), dataset, fonction de tâche, évaluateurs, définition de l'expérience, exécution et inspection des résultats. En format .ipynb, chaque section devient une paire cellule Markdown + cellule code.

Installation et utilisation

Pour installer ce skill dans Claude Code, copier le dossier entier dans ~/.claude/skills :

cp -r agent-observability/agent-observability-experiment-py-bootstrap ~/.claude/skills

Il requiert le toolset MCP LLMO de Datadog pour le beacon de télémétrie, mais fonctionne également sans backend MCP (le beacon est alors ignoré silencieusement, la génération de code n'est pas bloquée). L'invocation se fait via la commande /agent-observability-experiment-py-bootstrap dans Claude Code, avec des arguments optionnels (--format, --dataset, --purpose, --evaluator-style, etc.).

Skills similaires