Monitoring & Observabilité
Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.
| # | Skill | Source | Description | ||
|---|---|---|---|---|---|
| 1 | distributed-tracing | wshobson/agents | Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. | 37 256 | |
| 2 | python-observability | wshobson/agents | Instrumenter des applications Python avec logs structurés, métriques et traces distribuées. | 37 256 | |
| 3 | azure-monitor-opentelemetry-exporter-py | microsoft/skills | Exporter des traces, métriques et logs OpenTelemetry vers Azure Application Insights. | 2 623 | |
| 4 | azure-monitor-opentelemetry-py | microsoft/skills | Configurer Azure Monitor avec OpenTelemetry pour instrumenter automatiquement des apps Python. | 2 623 | |
| 5 | dynamo-interconnect-check | nvidia/skills | Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark. | 1 952 | |
| 6 | dynamo-troubleshoot | nvidia/skills | Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises. | 1 952 | |
| 7 | jetson-memory-audit | nvidia/skills | Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload. | 1 952 | |
| 8 | perf-host-analysis | nvidia/skills | Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. | 1 952 | |
| 9 | perf-workload-profiling | nvidia/skills | Profiler les charges de travail GPU avec timing précis et isolation des phases. | 1 952 | |
| 10 | agent-observability-eval-bootstrap | datadog-labs/agent-skills | Analyser des traces LLM de production pour générer et publier une suite d'évaluateurs Datadog. | 136 | |
| 11 | agent-observability-eval-pipeline | datadog-labs/agent-skills | Orchestrer un pipeline d'évaluation en six phases pour analyser et améliorer des agents IA instrumentés. | 136 | |
| 12 | agent-observability-experiment-py-bootstrap | datadog-labs/agent-skills | Générer un script Python ou notebook Jupyter d'expérimentation LLM avec ddtrace.llmobs. | 136 | |
| 13 | eval-trace-rca | datadog-labs/agent-skills | Analyser les causes racines des échecs d'évaluations et erreurs dans les traces LLM de production. | 136 | |
| 14 | llm-obs-eval-bootstrap | datadog-labs/agent-skills | Générer une suite d'évaluateurs prêts à l'emploi à partir de traces LLM en production. | 136 | |
| 15 | redis-observability | redis/agent-skills | Surveiller, diagnostiquer et alerter sur les métriques clés d'une instance Redis. | 78 | |
| 16 | debugging-signals-pipeline | posthog/skills | Déboguer et monitorer un pipeline de traitement de signaux Temporal end-to-end. | 48 | |
| 17 | error-tracking-python | posthog/skills | Intégrer le suivi d'erreurs PostHog dans des applications Python. | 48 | |
| 18 | logs-python | posthog/skills | Intégrer la collecte de logs PostHog dans des applications Python via OpenTelemetry. | 48 |
À propos de cette sélection
L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.