Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

117 skills

# Skill Source Description Δ
1 monitor nvidia/skills Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC. 1 960 8
2 nemoclaw-user-monitor-sandbox nvidia/skills Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. 1 960 8
3 ad-conf-check nvidia/skills Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes. 1 960 8
4 perf-host-analysis nvidia/skills Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. 1 960 8
5 perf-nsight-compute-analysis nvidia/skills Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute. 1 960 8
6 perf-nsight-systems nvidia/skills Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement. 1 960 8
7 perf-workload-profiling nvidia/skills Profiler les charges de travail GPU avec timing précis et isolation des phases. 1 960 8
8 alerts nvidia/skills Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 1 960 8
9 dynamo-interconnect-check nvidia/skills Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark. 1 960 8
10 dynamo-troubleshoot nvidia/skills Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises. 1 960 8
11 vss-manage-alerts nvidia/skills Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel. 1 960 8
12 jetson-diagnostic nvidia/skills Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources. 1 960 8
13 jetson-memory-audit nvidia/skills Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload. 1 960 8
14 sentry anthropics/claude-cookbooks Configurer des credentials Sentry chiffrés en vault pour un agent planifié. 46 044 3
15 sentry openai/skills Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production. 22 950 2
16 cost-optimization wshobson/agents Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques. 37 258 2
17 service-mesh-observability wshobson/agents Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs. 37 258 2
18 incident-runbook-templates wshobson/agents Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production. 37 258 2
19 distributed-tracing wshobson/agents Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. 37 258 2
20 grafana-dashboards wshobson/agents Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus. 37 258 2
21 prometheus-configuration wshobson/agents Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. 37 258 2
22 slo-implementation wshobson/agents Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services. 37 258 2
23 python-observability wshobson/agents Instrumenter des applications Python avec logs structurés, métriques et traces distribuées. 37 258 2
24 azure-monitor-ingestion-java microsoft/skills Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java. 2 624 1
25 azure-monitor-opentelemetry-exporter-java microsoft/skills Exporter des données de télémétrie OpenTelemetry vers Azure Monitor Application Insights. 2 624 1
26 azure-monitor-opentelemetry-exporter-py microsoft/skills Exporter des traces, métriques et logs OpenTelemetry vers Azure Application Insights. 2 624 1
27 azure-monitor-opentelemetry-py microsoft/skills Configurer Azure Monitor avec OpenTelemetry pour instrumenter automatiquement des apps Python. 2 624 1
28 applicationinsights-web-ts microsoft/skills Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights. 2 624 1
29 azure-monitor-opentelemetry-ts microsoft/skills Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry. 2 624 1
30 flowstudio-power-automate-monitoring github/awesome-copilot Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance. 35 826 1
31 qdrant-monitoring github/awesome-copilot Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. 35 826 1
32 qdrant-monitoring-debugging github/awesome-copilot Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. 35 826 1
33 qdrant-monitoring-setup github/awesome-copilot Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés. 35 826 1
34 aws-resource-health-diagnose github/awesome-copilot Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch. 35 826 1
35 AWS CloudWatch Investigation github/awesome-copilot Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms. 35 826 1
36 qdrant-monitoring-setup qdrant/skills Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. 181 0
37 troubleshooting-astro-deployments astronomer/agents Diagnostiquer et résoudre les problèmes de déploiements Astronomer en production via l'Astro CLI. 393 0
38 building-dashboards axiomhq/skills Concevoir des dashboards décisionnels en APL ou MPL à partir de données réelles. 10 0
39 controlling-costs axiomhq/skills Optimiser les coûts Axiom via dashboards, moniteurs et détection de gaspillage. 10 0
40 query-metrics axiomhq/skills Interroger et explorer des métriques OpenTelemetry stockées dans Axiom MetricsDB. 10 0
41 axiom-sre axiomhq/skills Diagnostiquer et résoudre des incidents SRE avec rigueur data-driven et sans jamais exposer de secrets. 10 0
42 otel-collector dash0hq/agent-skills Configurer et déployer l'OpenTelemetry Collector pour collecter et exporter la télémétrie. 68 0
43 otel-instrumentation dash0hq/agent-skills Implémenter une télémétrie OpenTelemetry de qualité, efficace et sécurisée. 68 0
44 otel-ottl dash0hq/agent-skills Transformer, filtrer et manipuler des données de télémétrie OpenTelemetry via OTTL. 68 0
45 otel-semantic-conventions dash0hq/agent-skills Valider et placer correctement les attributs de télémétrie selon OpenTelemetry Semantic Conventions. 68 0
46 agent-skills datadog-labs/agent-skills Gérer la surveillance, les logs et les traces Datadog via un agent IA. 136 0
47 dd-apm datadog-labs/agent-skills Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. 136 0
48 agent-install datadog-labs/agent-skills Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants. 136 0
49 enable-ssi datadog-labs/agent-skills Configurer les balises de service unifiées Datadog via SSI sur Linux. 136 0
50 onboarding-summary datadog-labs/agent-skills Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux. 136 0

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.