Monitoring & Observabilité
Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.
| # | Skill | Source | Description | Δ | |
|---|---|---|---|---|---|
| 1 | arize-instrumentation | github/awesome-copilot | Instrumenter une application avec le tracing Arize AX via une analyse guidée. | 32 871 | 105 |
| 2 | error-tracking-python | posthog/skills | Intégrer le suivi d'erreurs PostHog dans des applications Python. | 36 | 2 |
| 3 | perf-cuda-graphs | nvidia/skills | Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles. | 85 | 0 |
| 4 | perf-expert-parallel-overlap | nvidia/skills | Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication. | 85 | 0 |
| 5 | perf-memory-tuning | nvidia/skills | Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles. | 85 | 0 |
| 6 | perf-moe-comm-overlap | nvidia/skills | Activer et configurer le chevauchement des communications MoE en parallélisme expert. | 85 | 0 |
| 7 | resiliency | nvidia/skills | Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués. | 85 | 0 |
| 8 | run-on-slurm | nvidia/skills | Lancer et superviser un entraînement Megatron-LM distribué sur cluster SLURM. | 85 | 0 |
| 9 | perf-host-analysis | nvidia/skills | Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. | 85 | 0 |
| 10 | perf-workload-profiling | nvidia/skills | Profiler les charges de travail GPU avec timing précis et isolation des phases. | 85 | 0 |
À propos de cette sélection
L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.