Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

10 skills

# Skill Source Description Maj
1 arize-instrumentation github/awesome-copilot Instrumenter une application avec le tracing Arize AX via une analyse guidée. 32 871 18h
2 run-on-slurm nvidia/skills Lancer et superviser un entraînement Megatron-LM distribué sur cluster SLURM. 85 10j
3 perf-cuda-graphs nvidia/skills Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles. 85 12j
4 perf-expert-parallel-overlap nvidia/skills Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication. 85 12j
5 perf-memory-tuning nvidia/skills Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles. 85 12j
6 perf-moe-comm-overlap nvidia/skills Activer et configurer le chevauchement des communications MoE en parallélisme expert. 85 12j
7 resiliency nvidia/skills Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués. 85 12j
8 perf-host-analysis nvidia/skills Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. 85 25j
9 perf-workload-profiling nvidia/skills Profiler les charges de travail GPU avec timing précis et isolation des phases. 85 25j
10 error-tracking-python posthog/skills Intégrer le suivi d'erreurs PostHog dans des applications Python. 36 1mo

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.