Monitoring & Observabilité
Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.
| # | Skill | Source | Description | Δ | |
|---|---|---|---|---|---|
| 1 | monitor | nvidia/skills | Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC. | 1 970 | 537 |
| 2 | nemoclaw-user-monitor-sandbox | nvidia/skills | Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. | 1 970 | 537 |
| 3 | ad-conf-check | nvidia/skills | Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes. | 1 970 | 537 |
| 4 | perf-host-analysis | nvidia/skills | Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. | 1 970 | 537 |
| 5 | perf-nsight-compute-analysis | nvidia/skills | Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute. | 1 970 | 537 |
| 6 | perf-nsight-systems | nvidia/skills | Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement. | 1 970 | 537 |
| 7 | perf-workload-profiling | nvidia/skills | Profiler les charges de travail GPU avec timing précis et isolation des phases. | 1 970 | 537 |
| 8 | alerts | nvidia/skills | Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. | 1 970 | 537 |
| 9 | dynamo-interconnect-check | nvidia/skills | Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark. | 1 970 | 537 |
| 10 | dynamo-troubleshoot | nvidia/skills | Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises. | 1 970 | 537 |
| 11 | vss-manage-alerts | nvidia/skills | Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel. | 1 970 | 537 |
| 12 | jetson-diagnostic | nvidia/skills | Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources. | 1 970 | 537 |
| 13 | jetson-memory-audit | nvidia/skills | Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload. | 1 970 | 537 |
| 14 | flowstudio-power-automate-monitoring | github/awesome-copilot | Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance. | 35 830 | 392 |
| 15 | qdrant-monitoring | github/awesome-copilot | Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. | 35 830 | 392 |
| 16 | qdrant-monitoring-debugging | github/awesome-copilot | Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. | 35 830 | 392 |
| 17 | qdrant-monitoring-setup | github/awesome-copilot | Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés. | 35 830 | 392 |
| 18 | aws-resource-health-diagnose | github/awesome-copilot | Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch. | 35 830 | 392 |
| 19 | AWS CloudWatch Investigation | github/awesome-copilot | Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms. | 35 830 | 392 |
| 20 | sentry | openai/skills | Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production. | 22 951 | 302 |
| 21 | sentry | anthropics/claude-cookbooks | Configurer des credentials Sentry chiffrés en vault pour un agent planifié. | 46 044 | 280 |
| 22 | cost-optimization | wshobson/agents | Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques. | 37 260 | 240 |
| 23 | service-mesh-observability | wshobson/agents | Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs. | 37 260 | 240 |
| 24 | incident-runbook-templates | wshobson/agents | Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production. | 37 260 | 240 |
| 25 | distributed-tracing | wshobson/agents | Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. | 37 260 | 240 |
| 26 | grafana-dashboards | wshobson/agents | Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus. | 37 260 | 240 |
| 27 | prometheus-configuration | wshobson/agents | Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. | 37 260 | 240 |
| 28 | slo-implementation | wshobson/agents | Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services. | 37 260 | 240 |
| 29 | python-observability | wshobson/agents | Instrumenter des applications Python avec logs structurés, métriques et traces distribuées. | 37 260 | 240 |
| 30 | alerts | nvidia-ai-blueprints/video-search-and-summarization | Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. | 1 677 | 108 |
| 31 | vss-manage-alerts | nvidia-ai-blueprints/video-search-and-summarization | Gérer les alertes VSS en temps réel : détection, notifications Slack et onboarding caméra. | 1 677 | 108 |
| 32 | azure-monitor-ingestion-java | microsoft/skills | Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java. | 2 625 | 27 |
| 33 | azure-monitor-opentelemetry-exporter-java | microsoft/skills | Exporter des données de télémétrie OpenTelemetry vers Azure Monitor Application Insights. | 2 625 | 27 |
| 34 | azure-monitor-opentelemetry-exporter-py | microsoft/skills | Exporter des traces, métriques et logs OpenTelemetry vers Azure Application Insights. | 2 625 | 27 |
| 35 | azure-monitor-opentelemetry-py | microsoft/skills | Configurer Azure Monitor avec OpenTelemetry pour instrumenter automatiquement des apps Python. | 2 625 | 27 |
| 36 | applicationinsights-web-ts | microsoft/skills | Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights. | 2 625 | 27 |
| 37 | azure-monitor-opentelemetry-ts | microsoft/skills | Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry. | 2 625 | 27 |
| 38 | qdrant-monitoring-setup | qdrant/skills | Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. | 181 | 10 |
| 39 | clickhouse-managed-postgres-rca | clickhouse/agent-skills | Diagnostiquer automatiquement les incidents de performance sur une instance Postgres managée ClickHouse. | 477 | 9 |
| 40 | firebase-crashlytics | firebase/agent-skills | Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. | 363 | 5 |
| 41 | agent-skills | datadog-labs/agent-skills | Gérer la surveillance, les logs et les traces Datadog via un agent IA. | 136 | 4 |
| 42 | dd-apm | datadog-labs/agent-skills | Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. | 136 | 4 |
| 43 | agent-install | datadog-labs/agent-skills | Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants. | 136 | 4 |
| 44 | enable-ssi | datadog-labs/agent-skills | Configurer les balises de service unifiées Datadog via SSI sur Linux. | 136 | 4 |
| 45 | onboarding-summary | datadog-labs/agent-skills | Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux. | 136 | 4 |
| 46 | troubleshoot-ssi | datadog-labs/agent-skills | Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux. | 136 | 4 |
| 47 | verify-ssi | datadog-labs/agent-skills | Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH. | 136 | 4 |
| 48 | dd-browser-sdk | datadog-labs/agent-skills | Mettre à niveau le SDK navigateur Datadog de la version 6 à 7. | 136 | 4 |
| 49 | upgrade-browser-sdk-v7 | datadog-labs/agent-skills | Migrer le SDK Browser Datadog de la version 6 à la version 7. | 136 | 4 |
| 50 | dd-docs | datadog-labs/agent-skills | Localiser et consulter la documentation officielle Datadog via un index optimisé. | 136 | 4 |
À propos de cette sélection
L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.