Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

117 skills

# Skill Source Description Δ
1 monitor nvidia/skills Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC. 1 970 537
2 nemoclaw-user-monitor-sandbox nvidia/skills Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer. 1 970 537
3 ad-conf-check nvidia/skills Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes. 1 970 537
4 perf-host-analysis nvidia/skills Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM. 1 970 537
5 perf-nsight-compute-analysis nvidia/skills Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute. 1 970 537
6 perf-nsight-systems nvidia/skills Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement. 1 970 537
7 perf-workload-profiling nvidia/skills Profiler les charges de travail GPU avec timing précis et isolation des phases. 1 970 537
8 alerts nvidia/skills Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 1 970 537
9 dynamo-interconnect-check nvidia/skills Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark. 1 970 537
10 dynamo-troubleshoot nvidia/skills Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises. 1 970 537
11 vss-manage-alerts nvidia/skills Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel. 1 970 537
12 jetson-diagnostic nvidia/skills Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources. 1 970 537
13 jetson-memory-audit nvidia/skills Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload. 1 970 537
14 flowstudio-power-automate-monitoring github/awesome-copilot Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance. 35 830 392
15 qdrant-monitoring github/awesome-copilot Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production. 35 830 392
16 qdrant-monitoring-debugging github/awesome-copilot Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire. 35 830 392
17 qdrant-monitoring-setup github/awesome-copilot Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés. 35 830 392
18 aws-resource-health-diagnose github/awesome-copilot Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch. 35 830 392
19 AWS CloudWatch Investigation github/awesome-copilot Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms. 35 830 392
20 sentry openai/skills Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production. 22 951 302
21 sentry anthropics/claude-cookbooks Configurer des credentials Sentry chiffrés en vault pour un agent planifié. 46 044 280
22 cost-optimization wshobson/agents Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques. 37 260 240
23 service-mesh-observability wshobson/agents Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs. 37 260 240
24 incident-runbook-templates wshobson/agents Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production. 37 260 240
25 distributed-tracing wshobson/agents Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes. 37 260 240
26 grafana-dashboards wshobson/agents Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus. 37 260 240
27 prometheus-configuration wshobson/agents Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure. 37 260 240
28 slo-implementation wshobson/agents Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services. 37 260 240
29 python-observability wshobson/agents Instrumenter des applications Python avec logs structurés, métriques et traces distribuées. 37 260 240
30 alerts nvidia-ai-blueprints/video-search-and-summarization Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif. 1 677 108
31 vss-manage-alerts nvidia-ai-blueprints/video-search-and-summarization Gérer les alertes VSS en temps réel : détection, notifications Slack et onboarding caméra. 1 677 108
32 azure-monitor-ingestion-java microsoft/skills Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java. 2 625 27
33 azure-monitor-opentelemetry-exporter-java microsoft/skills Exporter des données de télémétrie OpenTelemetry vers Azure Monitor Application Insights. 2 625 27
34 azure-monitor-opentelemetry-exporter-py microsoft/skills Exporter des traces, métriques et logs OpenTelemetry vers Azure Application Insights. 2 625 27
35 azure-monitor-opentelemetry-py microsoft/skills Configurer Azure Monitor avec OpenTelemetry pour instrumenter automatiquement des apps Python. 2 625 27
36 applicationinsights-web-ts microsoft/skills Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights. 2 625 27
37 azure-monitor-opentelemetry-ts microsoft/skills Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry. 2 625 27
38 qdrant-monitoring-setup qdrant/skills Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés. 181 10
39 clickhouse-managed-postgres-rca clickhouse/agent-skills Diagnostiquer automatiquement les incidents de performance sur une instance Postgres managée ClickHouse. 477 9
40 firebase-crashlytics firebase/agent-skills Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS. 363 5
41 agent-skills datadog-labs/agent-skills Gérer la surveillance, les logs et les traces Datadog via un agent IA. 136 4
42 dd-apm datadog-labs/agent-skills Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes. 136 4
43 agent-install datadog-labs/agent-skills Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants. 136 4
44 enable-ssi datadog-labs/agent-skills Configurer les balises de service unifiées Datadog via SSI sur Linux. 136 4
45 onboarding-summary datadog-labs/agent-skills Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux. 136 4
46 troubleshoot-ssi datadog-labs/agent-skills Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux. 136 4
47 verify-ssi datadog-labs/agent-skills Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH. 136 4
48 dd-browser-sdk datadog-labs/agent-skills Mettre à niveau le SDK navigateur Datadog de la version 6 à 7. 136 4
49 upgrade-browser-sdk-v7 datadog-labs/agent-skills Migrer le SDK Browser Datadog de la version 6 à la version 7. 136 4
50 dd-docs datadog-labs/agent-skills Localiser et consulter la documentation officielle Datadog via un index optimisé. 136 4

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.