Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

104 skills

# Skill Source Description
1 sentry anthropics/claude-cookbooks Configurer des credentials Sentry chiffrés en vault pour un agent planifié. 45 526
2 cost-optimization wshobson/agents Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques. 36 831
3 distributed-tracing wshobson/agents Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. 36 831
4 grafana-dashboards wshobson/agents Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus. 36 831
5 incident-runbook-templates wshobson/agents Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production. 36 831
6 prometheus-configuration wshobson/agents Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. 36 831
7 python-observability wshobson/agents Instrumenter des applications Python avec logs structurés, métriques et traces distribuées. 36 831
8 service-mesh-observability wshobson/agents Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs. 36 831
9 slo-implementation wshobson/agents Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services. 36 831
10 aws-resource-health-diagnose github/awesome-copilot Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch. 35 120
11 flowstudio-power-automate-monitoring github/awesome-copilot Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance. 35 120
12 qdrant-monitoring github/awesome-copilot Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. 35 120
13 qdrant-monitoring-debugging github/awesome-copilot Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. 35 120
14 qdrant-monitoring-setup github/awesome-copilot Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés. 35 120
15 sentry openai/skills Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production. 22 307
16 applicationinsights-web-ts microsoft/skills Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights. 2 568
17 azure-cost microsoft/skills Analyser, prévoir et optimiser les coûts Azure via des requêtes API ciblées. 2 568
18 azure-monitor-ingestion-java microsoft/skills Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java. 2 568
19 azure-monitor-opentelemetry-exporter-java microsoft/skills Exporter des données de télémétrie OpenTelemetry vers Azure Monitor Application Insights. 2 568
20 azure-monitor-opentelemetry-exporter-py microsoft/skills Exporter des traces, métriques et logs OpenTelemetry vers Azure Application Insights. 2 568
21 azure-monitor-opentelemetry-py microsoft/skills Configurer Azure Monitor avec OpenTelemetry pour instrumenter automatiquement des apps Python. 2 568
22 azure-monitor-opentelemetry-ts microsoft/skills Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry. 2 568
23 alerts nvidia-ai-blueprints/video-search-and-summarization Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 1 556
24 ad-conf-check nvidia/skills Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes. 1 285
25 alerts nvidia/skills Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 1 285
26 dynamo-interconnect-check nvidia/skills Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark. 1 285
27 dynamo-troubleshoot nvidia/skills Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises. 1 285
28 monitor nvidia/skills Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC. 1 285
29 nemoclaw-user-monitor-sandbox nvidia/skills Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. 1 285
30 perf-host-analysis nvidia/skills Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. 1 285
31 perf-nsight-compute-analysis nvidia/skills Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute. 1 285
32 perf-nsight-systems nvidia/skills Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement. 1 285
33 perf-workload-profiling nvidia/skills Profiler les charges de travail GPU avec timing précis et isolation des phases. 1 285
34 vss-manage-alerts nvidia/skills Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel. 1 285
35 vss-query-analytics nvidia/skills Interroger les incidents, métriques et alertes Elasticsearch via le serveur VA-MCP en lecture seule. 1 285
36 clickhouse-managed-postgres-rca clickhouse/agent-skills Diagnostiquer automatiquement les incidents de performance sur une instance Postgres managée ClickHouse. 464
37 troubleshooting-astro-deployments astronomer/agents Diagnostiquer et résoudre les problèmes de déploiements Astronomer en production via l'Astro CLI. 391
38 firebase-crashlytics firebase/agent-skills Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. 352
39 clickhouse-system-log-disk-exhaustion divinevideo/divine-mobile Diagnostiquer et résoudre l'épuisement disque des logs système ClickHouse. 255
40 mcloud-logs medusajs/medusa-agent-skills Récupérer et filtrer les logs d'un environnement Cloud via la CLI mcloud logs. 187
41 qdrant-monitoring-setup qdrant/skills Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. 166
42 agent-install datadog-labs/agent-skills Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants. 130
43 agent-skills datadog-labs/agent-skills Gérer la surveillance, les logs et les traces Datadog via un agent IA. 130
44 dd-apm datadog-labs/agent-skills Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. 130
45 dd-audit-ai-activity datadog-labs/agent-skills Auditer l'activité de l'assistant IA Datadog via les journaux d'audit MCP. 130
46 dd-audit-cost-spike-investigation datadog-labs/agent-skills Corréler les pics de coût Datadog avec les changements de configuration via l'Audit Trail. 130
47 dd-browser-sdk datadog-labs/agent-skills Mettre à niveau le SDK navigateur Datadog de la version 6 à 7. 130
48 dd-docs datadog-labs/agent-skills Localiser et consulter la documentation officielle Datadog via un index optimisé. 130
49 dd-logs datadog-labs/agent-skills Rechercher, filtrer et archiver des logs Datadog avec contrôle des coûts. 130
50 dd-monitors datadog-labs/agent-skills Créer, gérer et auditer des monitors d'alerting Datadog avec les meilleures pratiques. 130

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.