Monitoring & Observabilité
Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.
| # | Skill | Source | Description | Maj | |
|---|---|---|---|---|---|
| 1 | dd-browser-sdk | datadog-labs/agent-skills | Mettre à niveau le SDK navigateur Datadog de la version 6 à 7. | 136 | 1j |
| 2 | upgrade-browser-sdk-v7 | datadog-labs/agent-skills | Migrer le SDK Browser Datadog de la version 6 à la version 7. | 136 | 1j |
| 3 | upgrade-browser-sdk-v5 | datadog-labs/agent-skills | Migrer le SDK Datadog Browser de la version 4 à la version 5 pas à pas. | 136 | 1j |
| 4 | upgrade-browser-sdk-v6 | datadog-labs/agent-skills | Migrer le SDK Datadog Browser de la version 5 à la version 6 pas à pas. | 136 | 1j |
| 5 | datadog-app | datadog-labs/agent-skills | Développer des Datadog Apps avec React, TypeScript et publication sur site Datadog. | 136 | 2j |
| 6 | firebase-crashlytics | firebase/agent-skills | Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. | 363 | 5j |
| 7 | jetson-diagnostic | nvidia/skills | Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources. | 1 960 | 5j |
| 8 | jetson-memory-audit | nvidia/skills | Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload. | 1 960 | 5j |
| 9 | AWS CloudWatch Investigation | github/awesome-copilot | Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms. | 35 826 | 5j |
| 10 | troubleshoot-ssi | datadog-labs/agent-skills | Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux. | 136 | 11j |
| 11 | agent-skills | datadog-labs/agent-skills | Gérer la surveillance, les logs et les traces Datadog via un agent IA. | 136 | 11j |
| 12 | agent-observability-eval-bootstrap | datadog-labs/agent-skills | Analyser des traces LLM de production pour générer et publier une suite d'évaluateurs Datadog. | 136 | 12j |
| 13 | agent-observability-eval-pipeline | datadog-labs/agent-skills | Orchestrer un pipeline d'évaluation en six phases pour analyser et améliorer des agents IA instrumentés. | 136 | 12j |
| 14 | agent-observability-experiment-analyzer | datadog-labs/agent-skills | Analyser un ou deux experiments LLM pour en extraire insights et comparaisons. | 136 | 12j |
| 15 | agent-observability-experiment-py-bootstrap | datadog-labs/agent-skills | Générer un script Python ou notebook Jupyter d'expérimentation LLM avec ddtrace.llmobs. | 136 | 12j |
| 16 | agent-observability-session-classify | datadog-labs/agent-skills | Classifier la satisfaction des sessions d'agents IA via Datadog LLM Observability. | 136 | 12j |
| 17 | agent-observability-trace-rca | datadog-labs/agent-skills | Diagnostiquer les défaillances d'applications LLM en analysant les traces de production jusqu'à la cause racine. | 136 | 12j |
| 18 | vss-manage-alerts | nvidia/skills | Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel. | 1 960 | 12j |
| 19 | vss-manage-alerts | nvidia-ai-blueprints/video-search-and-summarization | Gérer les alertes VSS en temps réel : détection, notifications Slack et onboarding caméra. | 1 677 | 13j |
| 20 | exploring-apm-traces | posthog/skills | Explorer les traces APM OpenTelemetry pour analyser performances et erreurs des services distribués. | 48 | 13j |
| 21 | debugging-signals-pipeline | posthog/skills | Déboguer et monitorer un pipeline de traitement de signaux Temporal end-to-end. | 48 | 13j |
| 22 | signals-scout-error-tracking | posthog/skills | Détecter et analyser les anomalies d'exceptions dans les logs d'erreurs d'une équipe. | 48 | 13j |
| 23 | signals-scout-health-checks | posthog/skills | Analyser les problèmes de santé PostHog et synthétiser les alertes actionnables par sévérité. | 48 | 13j |
| 24 | signals-scout-inbox-validation | posthog/skills | Vérifier que les correctifs fusionnés ont réellement résolu les problèmes signalés. | 48 | 13j |
| 25 | signals-scout-logs | posthog/skills | Surveiller les logs d'un projet pour détecter anomalies de volume et sévérité. | 48 | 13j |
| 26 | signals-scout-observability-gaps | posthog/skills | Détecter et recommander des lacunes d'observabilité dans la couverture d'événements d'une équipe. | 48 | 13j |
| 27 | axiom-sre | axiomhq/skills | Diagnostiquer et résoudre des incidents SRE avec rigueur data-driven et sans jamais exposer de secrets. | 10 | 15j |
| 28 | llm-obs-experiment-analyzer | datadog-labs/agent-skills | Analyser et comparer des expériences LLM pour en extraire insights et métriques clés. | 136 | 17j |
| 29 | aws-resource-health-diagnose | github/awesome-copilot | Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch. | 35 826 | 17j |
| 30 | sentry | anthropics/claude-cookbooks | Configurer des credentials Sentry chiffrés en vault pour un agent planifié. | 46 044 | 18j |
| 31 | clickhouse-managed-postgres-rca | clickhouse/agent-skills | Diagnostiquer automatiquement les incidents de performance sur une instance Postgres managée ClickHouse. | 477 | 19j |
| 32 | service-remapping | datadog-labs/agent-skills | Créer des règles de remappage APM pour renommer ou regrouper des services Datadog sans réinstrumentation. | 136 | 24j |
| 33 | qdrant-monitoring-setup | qdrant/skills | Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. | 181 | 24j |
| 34 | llm-obs-eval-bootstrap | datadog-labs/agent-skills | Générer une suite d'évaluateurs prêts à l'emploi à partir de traces LLM en production. | 136 | 25j |
| 35 | instrument-error-tracking | posthog/skills | Intégrer PostHog pour capturer et surveiller les exceptions dans une application. | 48 | 26j |
| 36 | instrument-logs | posthog/skills | Intégrer la capture de logs PostHog via OpenTelemetry dans tout projet existant. | 48 | 26j |
| 37 | dd-apm | datadog-labs/agent-skills | Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. | 136 | 29j |
| 38 | dd-logs | datadog-labs/agent-skills | Rechercher, filtrer et archiver des logs Datadog avec contrôle des coûts. | 136 | 29j |
| 39 | dd-monitors | datadog-labs/agent-skills | Créer, gérer et auditer des monitors d'alerting Datadog avec les meilleures pratiques. | 136 | 29j |
| 40 | dd-pup | datadog-labs/agent-skills | Interagir avec l'API Datadog via CLI pour logs, monitors, traces et incidents. | 136 | 29j |
| 41 | dynamo-interconnect-check | nvidia/skills | Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark. | 1 960 | 29j |
| 42 | dynamo-troubleshoot | nvidia/skills | Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises. | 1 960 | 29j |
| 43 | nemoclaw-user-monitor-sandbox | nvidia/skills | Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. | 1 960 | 1mo |
| 44 | redis-observability | redis/agent-skills | Surveiller, diagnostiquer et alerter sur les métriques clés d'une instance Redis. | 78 | 1mo |
| 45 | distributed-tracing | wshobson/agents | Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. | 37 258 | 1mo |
| 46 | prometheus-configuration | wshobson/agents | Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. | 37 258 | 1mo |
| 47 | slo-implementation | wshobson/agents | Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services. | 37 258 | 1mo |
| 48 | python-observability | wshobson/agents | Instrumenter des applications Python avec logs structurés, métriques et traces distribuées. | 37 258 | 1mo |
| 49 | service-mesh-observability | wshobson/agents | Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs. | 37 258 | 1mo |
| 50 | incident-runbook-templates | wshobson/agents | Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production. | 37 258 | 1mo |
À propos de cette sélection
L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.