Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

88 skills

# Skill Source Description Maj
1 arize-instrumentation github/awesome-copilot Instrumenter une application avec le tracing Arize AX via une analyse guidée. 32 871 19h
2 flowstudio-power-automate-monitoring github/awesome-copilot Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance. 32 871 2j
3 building-dashboards axiomhq/skills Concevoir des dashboards décisionnels en APL ou MPL à partir de données réelles. 10 5j
4 alerts nvidia/skills Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 85 5j
5 dd-audit-ai-activity datadog-labs/agent-skills Auditer l'activité de l'assistant IA Datadog via les journaux d'audit MCP. 108 6j
6 dd-audit-cost-spike-investigation datadog-labs/agent-skills Corréler les pics de coût Datadog avec les changements de configuration via l'Audit Trail. 108 6j
7 dd-pup datadog-labs/agent-skills Interagir avec l'API Datadog via CLI pour logs, monitors, traces et incidents. 108 6j
8 firebase-crashlytics firebase/agent-skills Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. 280 7j
9 service-remapping datadog-labs/agent-skills Créer des règles de remappage APM pour renommer ou regrouper des services Datadog sans réinstrumentation. 108 8j
10 axiom-alerting axiomhq/skills Gérer les alertes et notificateurs Axiom de bout en bout via API. 10 8j
11 otel-ottl dash0hq/agent-skills Transformer, filtrer et manipuler des données de télémétrie OpenTelemetry via OTTL. 52 9j
12 autonomous-optimization elophanto/elophanto Optimiser et sécuriser le routage LLM via tests parallèles, fallbacks et garde-fous financiers. 59 10j
13 runbook-incident-response elophanto/elophanto Gérer un incident de production de bout en bout, du triage au post-mortem. 59 10j
14 run-on-slurm nvidia/skills Lancer et superviser un entraînement Megatron-LM distribué sur cluster SLURM. 85 10j
15 perf-cuda-graphs nvidia/skills Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles. 85 12j
16 perf-expert-parallel-overlap nvidia/skills Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication. 85 12j
17 perf-memory-tuning nvidia/skills Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles. 85 12j
18 perf-moe-comm-overlap nvidia/skills Activer et configurer le chevauchement des communications MoE en parallélisme expert. 85 12j
19 resiliency nvidia/skills Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués. 85 12j
20 otel-instrumentation dash0hq/agent-skills Implémenter une télémétrie OpenTelemetry de qualité, efficace et sécurisée. 52 12j
21 otel-semantic-conventions dash0hq/agent-skills Valider et placer correctement les attributs de télémétrie selon OpenTelemetry Semantic Conventions. 52 12j
22 otel-collector dash0hq/agent-skills Configurer et déployer l'OpenTelemetry Collector pour collecter et exporter la télémétrie. 52 12j
23 agent-skills datadog-labs/agent-skills Gérer la surveillance, les logs et les traces Datadog via un agent IA. 108 14j
24 monitor nvidia/skills Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC. 85 14j
25 nemoclaw-user-monitor-sandbox nvidia/skills Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. 85 14j
26 ad-conf-check nvidia/skills Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes. 85 14j
27 dd-apm datadog-labs/agent-skills Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. 108 16j
28 agent-install datadog-labs/agent-skills Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants. 108 19j
29 enable-ssi datadog-labs/agent-skills Configurer les balises de service unifiées Datadog via SSI sur Linux. 108 19j
30 onboarding-summary datadog-labs/agent-skills Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux. 108 19j
31 troubleshoot-ssi datadog-labs/agent-skills Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux. 108 19j
32 verify-ssi datadog-labs/agent-skills Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH. 108 19j
33 applicationinsights-web-ts microsoft/skills Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights. 2 300 20j
34 eas-update-insights expo/skills Consulter les métriques de santé et d'adoption des mises à jour EAS publiées. 1 905 20j
35 azure-cost microsoft/skills Analyser, prévoir et optimiser les coûts Azure via des requêtes API ciblées. 2 300 21j
36 azure-monitor-opentelemetry-ts microsoft/skills Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry. 2 300 21j
37 http-toolkit-intercept factory-ai/factory-plugins Intercepter et analyser le trafic HTTP d'un programme via un proxy HTTP Toolkit. 72 21j
38 qdrant-monitoring qdrant/skills Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. 116 23j
39 qdrant-monitoring-debugging qdrant/skills Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. 116 23j
40 qdrant-monitoring-setup qdrant/skills Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. 116 23j
41 qdrant-memory-usage-optimization qdrant/skills Optimiser et surveiller l'utilisation mémoire de Qdrant pour réduire l'empreinte RAM. 116 23j
42 qdrant-minimize-latency qdrant/skills Optimiser la latence des requêtes Qdrant via RAM, CPU et segmentation. 116 23j
43 qdrant-scaling-qps qdrant/skills Optimiser le débit de requêtes Qdrant via segmentation, quantization et réplication horizontale. 116 23j
44 distributed-tracing wshobson/agents Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. 35 314 24j
45 prometheus-configuration wshobson/agents Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. 35 314 24j
46 perf-analysis nvidia/skills Analyser les performances GPU en classifiant les goulots d'étranglement et produisant des rapports structurés. 85 26j
47 perf-host-analysis nvidia/skills Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. 85 26j
48 perf-nsight-compute-analysis nvidia/skills Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute. 85 26j
49 perf-nsight-systems nvidia/skills Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement. 85 26j
50 perf-workload-profiling nvidia/skills Profiler les charges de travail GPU avec timing précis et isolation des phases. 85 26j

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.