Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

10 skills

#	Skill	Source	Description		Δ
1	arize-instrumentation	github/awesome-copilot	Instrumenter une application avec le tracing Arize AX via une analyse guidée.	32 871	105
2	error-tracking-python	posthog/skills	Intégrer le suivi d'erreurs PostHog dans des applications Python.	36	2
3	perf-cuda-graphs	nvidia/skills	Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles.	85	0
4	perf-expert-parallel-overlap	nvidia/skills	Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication.	85	0
5	perf-memory-tuning	nvidia/skills	Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles.	85	0
6	perf-moe-comm-overlap	nvidia/skills	Activer et configurer le chevauchement des communications MoE en parallélisme expert.	85	0
7	resiliency	nvidia/skills	Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués.	85	0
8	run-on-slurm	nvidia/skills	Lancer et superviser un entraînement Megatron-LM distribué sur cluster SLURM.	85	0
9	perf-host-analysis	nvidia/skills	Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM.	85	0
10	perf-workload-profiling	nvidia/skills	Profiler les charges de travail GPU avec timing précis et isolation des phases.	85	0

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.