Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

117 skills

# Skill Source Description Δ
1 monitor nvidia/skills Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC. 1 960 527
2 nemoclaw-user-monitor-sandbox nvidia/skills Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. 1 960 527
3 ad-conf-check nvidia/skills Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes. 1 960 527
4 perf-host-analysis nvidia/skills Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. 1 960 527
5 perf-nsight-compute-analysis nvidia/skills Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute. 1 960 527
6 perf-nsight-systems nvidia/skills Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement. 1 960 527
7 perf-workload-profiling nvidia/skills Profiler les charges de travail GPU avec timing précis et isolation des phases. 1 960 527
8 alerts nvidia/skills Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 1 960 527
9 dynamo-interconnect-check nvidia/skills Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark. 1 960 527
10 dynamo-troubleshoot nvidia/skills Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises. 1 960 527
11 vss-manage-alerts nvidia/skills Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel. 1 960 527
12 jetson-diagnostic nvidia/skills Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources. 1 960 527
13 jetson-memory-audit nvidia/skills Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload. 1 960 527
14 flowstudio-power-automate-monitoring github/awesome-copilot Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance. 35 826 388
15 qdrant-monitoring github/awesome-copilot Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. 35 826 388
16 qdrant-monitoring-debugging github/awesome-copilot Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. 35 826 388
17 qdrant-monitoring-setup github/awesome-copilot Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés. 35 826 388
18 aws-resource-health-diagnose github/awesome-copilot Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch. 35 826 388
19 AWS CloudWatch Investigation github/awesome-copilot Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms. 35 826 388
20 sentry openai/skills Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production. 22 950 301
21 sentry anthropics/claude-cookbooks Configurer des credentials Sentry chiffrés en vault pour un agent planifié. 46 044 278
22 cost-optimization wshobson/agents Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques. 37 258 238
23 service-mesh-observability wshobson/agents Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs. 37 258 238
24 incident-runbook-templates wshobson/agents Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production. 37 258 238
25 distributed-tracing wshobson/agents Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. 37 258 238
26 grafana-dashboards wshobson/agents Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus. 37 258 238
27 prometheus-configuration wshobson/agents Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. 37 258 238
28 slo-implementation wshobson/agents Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services. 37 258 238
29 python-observability wshobson/agents Instrumenter des applications Python avec logs structurés, métriques et traces distribuées. 37 258 238
30 alerts nvidia-ai-blueprints/video-search-and-summarization Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 1 677 108
31 vss-manage-alerts nvidia-ai-blueprints/video-search-and-summarization Gérer les alertes VSS en temps réel : détection, notifications Slack et onboarding caméra. 1 677 108
32 azure-monitor-ingestion-java microsoft/skills Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java. 2 624 26
33 azure-monitor-opentelemetry-exporter-java microsoft/skills Exporter des données de télémétrie OpenTelemetry vers Azure Monitor Application Insights. 2 624 26
34 azure-monitor-opentelemetry-exporter-py microsoft/skills Exporter des traces, métriques et logs OpenTelemetry vers Azure Application Insights. 2 624 26
35 azure-monitor-opentelemetry-py microsoft/skills Configurer Azure Monitor avec OpenTelemetry pour instrumenter automatiquement des apps Python. 2 624 26
36 applicationinsights-web-ts microsoft/skills Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights. 2 624 26
37 azure-monitor-opentelemetry-ts microsoft/skills Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry. 2 624 26
38 qdrant-monitoring-setup qdrant/skills Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. 181 10
39 clickhouse-managed-postgres-rca clickhouse/agent-skills Diagnostiquer automatiquement les incidents de performance sur une instance Postgres managée ClickHouse. 477 9
40 firebase-crashlytics firebase/agent-skills Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. 363 5
41 agent-skills datadog-labs/agent-skills Gérer la surveillance, les logs et les traces Datadog via un agent IA. 136 4
42 dd-apm datadog-labs/agent-skills Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. 136 4
43 agent-install datadog-labs/agent-skills Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants. 136 4
44 enable-ssi datadog-labs/agent-skills Configurer les balises de service unifiées Datadog via SSI sur Linux. 136 4
45 onboarding-summary datadog-labs/agent-skills Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux. 136 4
46 troubleshoot-ssi datadog-labs/agent-skills Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux. 136 4
47 verify-ssi datadog-labs/agent-skills Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH. 136 4
48 dd-browser-sdk datadog-labs/agent-skills Mettre à niveau le SDK navigateur Datadog de la version 6 à 7. 136 4
49 upgrade-browser-sdk-v7 datadog-labs/agent-skills Migrer le SDK Browser Datadog de la version 6 à la version 7. 136 4
50 dd-docs datadog-labs/agent-skills Localiser et consulter la documentation officielle Datadog via un index optimisé. 136 4

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.