Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

10 skills

# Skill Source Description
1 arize-instrumentation github/awesome-copilot Instrumenter une application avec le tracing Arize AX via une analyse guidée. 32 867
2 perf-cuda-graphs nvidia/skills Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles. 85
3 perf-expert-parallel-overlap nvidia/skills Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication. 85
4 perf-host-analysis nvidia/skills Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. 85
5 perf-memory-tuning nvidia/skills Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles. 85
6 perf-moe-comm-overlap nvidia/skills Activer et configurer le chevauchement des communications MoE en parallélisme expert. 85
7 perf-workload-profiling nvidia/skills Profiler les charges de travail GPU avec timing précis et isolation des phases. 85
8 resiliency nvidia/skills Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués. 85
9 run-on-slurm nvidia/skills Lancer et superviser un entraînement Megatron-LM distribué sur cluster SLURM. 85
10 error-tracking-python posthog/skills Intégrer le suivi d'erreurs PostHog dans des applications Python. 34

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.