Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

117 skills

# Skill Source Description Maj
1 dd-browser-sdk datadog-labs/agent-skills Mettre à niveau le SDK navigateur Datadog de la version 6 à 7. 136 1j
2 upgrade-browser-sdk-v7 datadog-labs/agent-skills Migrer le SDK Browser Datadog de la version 6 à la version 7. 136 1j
3 upgrade-browser-sdk-v5 datadog-labs/agent-skills Migrer le SDK Datadog Browser de la version 4 à la version 5 pas à pas. 136 1j
4 upgrade-browser-sdk-v6 datadog-labs/agent-skills Migrer le SDK Datadog Browser de la version 5 à la version 6 pas à pas. 136 1j
5 datadog-app datadog-labs/agent-skills Développer des Datadog Apps avec React, TypeScript et publication sur site Datadog. 136 2j
6 firebase-crashlytics firebase/agent-skills Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. 363 5j
7 jetson-diagnostic nvidia/skills Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources. 1 960 5j
8 jetson-memory-audit nvidia/skills Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload. 1 960 5j
9 AWS CloudWatch Investigation github/awesome-copilot Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms. 35 826 5j
10 troubleshoot-ssi datadog-labs/agent-skills Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux. 136 11j
11 agent-skills datadog-labs/agent-skills Gérer la surveillance, les logs et les traces Datadog via un agent IA. 136 11j
12 agent-observability-eval-bootstrap datadog-labs/agent-skills Analyser des traces LLM de production pour générer et publier une suite d'évaluateurs Datadog. 136 12j
13 agent-observability-eval-pipeline datadog-labs/agent-skills Orchestrer un pipeline d'évaluation en six phases pour analyser et améliorer des agents IA instrumentés. 136 12j
14 agent-observability-experiment-analyzer datadog-labs/agent-skills Analyser un ou deux experiments LLM pour en extraire insights et comparaisons. 136 12j
15 agent-observability-experiment-py-bootstrap datadog-labs/agent-skills Générer un script Python ou notebook Jupyter d'expérimentation LLM avec ddtrace.llmobs. 136 12j
16 agent-observability-session-classify datadog-labs/agent-skills Classifier la satisfaction des sessions d'agents IA via Datadog LLM Observability. 136 12j
17 agent-observability-trace-rca datadog-labs/agent-skills Diagnostiquer les défaillances d'applications LLM en analysant les traces de production jusqu'à la cause racine. 136 12j
18 vss-manage-alerts nvidia/skills Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel. 1 960 12j
19 vss-manage-alerts nvidia-ai-blueprints/video-search-and-summarization Gérer les alertes VSS en temps réel : détection, notifications Slack et onboarding caméra. 1 677 13j
20 exploring-apm-traces posthog/skills Explorer les traces APM OpenTelemetry pour analyser performances et erreurs des services distribués. 48 13j
21 debugging-signals-pipeline posthog/skills Déboguer et monitorer un pipeline de traitement de signaux Temporal end-to-end. 48 13j
22 signals-scout-error-tracking posthog/skills Détecter et analyser les anomalies d'exceptions dans les logs d'erreurs d'une équipe. 48 13j
23 signals-scout-health-checks posthog/skills Analyser les problèmes de santé PostHog et synthétiser les alertes actionnables par sévérité. 48 13j
24 signals-scout-inbox-validation posthog/skills Vérifier que les correctifs fusionnés ont réellement résolu les problèmes signalés. 48 13j
25 signals-scout-logs posthog/skills Surveiller les logs d'un projet pour détecter anomalies de volume et sévérité. 48 13j
26 signals-scout-observability-gaps posthog/skills Détecter et recommander des lacunes d'observabilité dans la couverture d'événements d'une équipe. 48 13j
27 axiom-sre axiomhq/skills Diagnostiquer et résoudre des incidents SRE avec rigueur data-driven et sans jamais exposer de secrets. 10 15j
28 llm-obs-experiment-analyzer datadog-labs/agent-skills Analyser et comparer des expériences LLM pour en extraire insights et métriques clés. 136 17j
29 aws-resource-health-diagnose github/awesome-copilot Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch. 35 826 17j
30 sentry anthropics/claude-cookbooks Configurer des credentials Sentry chiffrés en vault pour un agent planifié. 46 044 18j
31 clickhouse-managed-postgres-rca clickhouse/agent-skills Diagnostiquer automatiquement les incidents de performance sur une instance Postgres managée ClickHouse. 477 19j
32 service-remapping datadog-labs/agent-skills Créer des règles de remappage APM pour renommer ou regrouper des services Datadog sans réinstrumentation. 136 24j
33 qdrant-monitoring-setup qdrant/skills Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. 181 24j
34 llm-obs-eval-bootstrap datadog-labs/agent-skills Générer une suite d'évaluateurs prêts à l'emploi à partir de traces LLM en production. 136 25j
35 instrument-error-tracking posthog/skills Intégrer PostHog pour capturer et surveiller les exceptions dans une application. 48 26j
36 instrument-logs posthog/skills Intégrer la capture de logs PostHog via OpenTelemetry dans tout projet existant. 48 26j
37 dd-apm datadog-labs/agent-skills Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. 136 29j
38 dd-logs datadog-labs/agent-skills Rechercher, filtrer et archiver des logs Datadog avec contrôle des coûts. 136 29j
39 dd-monitors datadog-labs/agent-skills Créer, gérer et auditer des monitors d'alerting Datadog avec les meilleures pratiques. 136 29j
40 dd-pup datadog-labs/agent-skills Interagir avec l'API Datadog via CLI pour logs, monitors, traces et incidents. 136 29j
41 dynamo-interconnect-check nvidia/skills Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark. 1 960 29j
42 dynamo-troubleshoot nvidia/skills Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises. 1 960 29j
43 nemoclaw-user-monitor-sandbox nvidia/skills Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. 1 960 1mo
44 redis-observability redis/agent-skills Surveiller, diagnostiquer et alerter sur les métriques clés d'une instance Redis. 78 1mo
45 distributed-tracing wshobson/agents Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. 37 258 1mo
46 prometheus-configuration wshobson/agents Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. 37 258 1mo
47 slo-implementation wshobson/agents Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services. 37 258 1mo
48 python-observability wshobson/agents Instrumenter des applications Python avec logs structurés, métriques et traces distribuées. 37 258 1mo
49 service-mesh-observability wshobson/agents Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs. 37 258 1mo
50 incident-runbook-templates wshobson/agents Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production. 37 258 1mo

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.