Monitoring & Observabilité
Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.
| # | Skill | Source | Description | Maj | |
|---|---|---|---|---|---|
| 1 | arize-instrumentation | github/awesome-copilot | Instrumenter une application avec le tracing Arize AX via une analyse guidée. | 32 871 | 19h |
| 2 | flowstudio-power-automate-monitoring | github/awesome-copilot | Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance. | 32 871 | 2j |
| 3 | building-dashboards | axiomhq/skills | Concevoir des dashboards décisionnels en APL ou MPL à partir de données réelles. | 10 | 5j |
| 4 | alerts | nvidia/skills | Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. | 85 | 5j |
| 5 | dd-audit-ai-activity | datadog-labs/agent-skills | Auditer l'activité de l'assistant IA Datadog via les journaux d'audit MCP. | 108 | 6j |
| 6 | dd-audit-cost-spike-investigation | datadog-labs/agent-skills | Corréler les pics de coût Datadog avec les changements de configuration via l'Audit Trail. | 108 | 6j |
| 7 | dd-pup | datadog-labs/agent-skills | Interagir avec l'API Datadog via CLI pour logs, monitors, traces et incidents. | 108 | 6j |
| 8 | firebase-crashlytics | firebase/agent-skills | Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. | 280 | 7j |
| 9 | service-remapping | datadog-labs/agent-skills | Créer des règles de remappage APM pour renommer ou regrouper des services Datadog sans réinstrumentation. | 108 | 8j |
| 10 | axiom-alerting | axiomhq/skills | Gérer les alertes et notificateurs Axiom de bout en bout via API. | 10 | 8j |
| 11 | otel-ottl | dash0hq/agent-skills | Transformer, filtrer et manipuler des données de télémétrie OpenTelemetry via OTTL. | 52 | 9j |
| 12 | autonomous-optimization | elophanto/elophanto | Optimiser et sécuriser le routage LLM via tests parallèles, fallbacks et garde-fous financiers. | 59 | 10j |
| 13 | runbook-incident-response | elophanto/elophanto | Gérer un incident de production de bout en bout, du triage au post-mortem. | 59 | 10j |
| 14 | run-on-slurm | nvidia/skills | Lancer et superviser un entraînement Megatron-LM distribué sur cluster SLURM. | 85 | 10j |
| 15 | perf-cuda-graphs | nvidia/skills | Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles. | 85 | 12j |
| 16 | perf-expert-parallel-overlap | nvidia/skills | Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication. | 85 | 12j |
| 17 | perf-memory-tuning | nvidia/skills | Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles. | 85 | 12j |
| 18 | perf-moe-comm-overlap | nvidia/skills | Activer et configurer le chevauchement des communications MoE en parallélisme expert. | 85 | 12j |
| 19 | resiliency | nvidia/skills | Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués. | 85 | 12j |
| 20 | otel-instrumentation | dash0hq/agent-skills | Implémenter une télémétrie OpenTelemetry de qualité, efficace et sécurisée. | 52 | 12j |
| 21 | otel-semantic-conventions | dash0hq/agent-skills | Valider et placer correctement les attributs de télémétrie selon OpenTelemetry Semantic Conventions. | 52 | 12j |
| 22 | otel-collector | dash0hq/agent-skills | Configurer et déployer l'OpenTelemetry Collector pour collecter et exporter la télémétrie. | 52 | 12j |
| 23 | agent-skills | datadog-labs/agent-skills | Gérer la surveillance, les logs et les traces Datadog via un agent IA. | 108 | 14j |
| 24 | monitor | nvidia/skills | Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC. | 85 | 14j |
| 25 | nemoclaw-user-monitor-sandbox | nvidia/skills | Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. | 85 | 14j |
| 26 | ad-conf-check | nvidia/skills | Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes. | 85 | 14j |
| 27 | dd-apm | datadog-labs/agent-skills | Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. | 108 | 16j |
| 28 | agent-install | datadog-labs/agent-skills | Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants. | 108 | 19j |
| 29 | enable-ssi | datadog-labs/agent-skills | Configurer les balises de service unifiées Datadog via SSI sur Linux. | 108 | 19j |
| 30 | onboarding-summary | datadog-labs/agent-skills | Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux. | 108 | 19j |
| 31 | troubleshoot-ssi | datadog-labs/agent-skills | Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux. | 108 | 19j |
| 32 | verify-ssi | datadog-labs/agent-skills | Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH. | 108 | 19j |
| 33 | applicationinsights-web-ts | microsoft/skills | Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights. | 2 300 | 20j |
| 34 | eas-update-insights | expo/skills | Consulter les métriques de santé et d'adoption des mises à jour EAS publiées. | 1 905 | 20j |
| 35 | azure-cost | microsoft/skills | Analyser, prévoir et optimiser les coûts Azure via des requêtes API ciblées. | 2 300 | 21j |
| 36 | azure-monitor-opentelemetry-ts | microsoft/skills | Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry. | 2 300 | 21j |
| 37 | http-toolkit-intercept | factory-ai/factory-plugins | Intercepter et analyser le trafic HTTP d'un programme via un proxy HTTP Toolkit. | 72 | 21j |
| 38 | qdrant-monitoring | qdrant/skills | Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. | 116 | 23j |
| 39 | qdrant-monitoring-debugging | qdrant/skills | Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. | 116 | 23j |
| 40 | qdrant-monitoring-setup | qdrant/skills | Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. | 116 | 23j |
| 41 | qdrant-memory-usage-optimization | qdrant/skills | Optimiser et surveiller l'utilisation mémoire de Qdrant pour réduire l'empreinte RAM. | 116 | 23j |
| 42 | qdrant-minimize-latency | qdrant/skills | Optimiser la latence des requêtes Qdrant via RAM, CPU et segmentation. | 116 | 23j |
| 43 | qdrant-scaling-qps | qdrant/skills | Optimiser le débit de requêtes Qdrant via segmentation, quantization et réplication horizontale. | 116 | 23j |
| 44 | distributed-tracing | wshobson/agents | Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. | 35 314 | 24j |
| 45 | prometheus-configuration | wshobson/agents | Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. | 35 314 | 24j |
| 46 | perf-analysis | nvidia/skills | Analyser les performances GPU en classifiant les goulots d'étranglement et produisant des rapports structurés. | 85 | 26j |
| 47 | perf-host-analysis | nvidia/skills | Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. | 85 | 26j |
| 48 | perf-nsight-compute-analysis | nvidia/skills | Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute. | 85 | 26j |
| 49 | perf-nsight-systems | nvidia/skills | Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement. | 85 | 26j |
| 50 | perf-workload-profiling | nvidia/skills | Profiler les charges de travail GPU avec timing précis et isolation des phases. | 85 | 26j |
À propos de cette sélection
L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.