Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

156 skills

#	Skill	Source	Description
1	ci-metrics	pytorch/pytorch	Interroger les métriques CI et infrastructure de PyTorch via Grafana et ClickHouse.	102 091
2	sentry	anthropics/claude-cookbooks	Configurer des credentials Sentry chiffrés en vault pour un agent planifié.	50 749
3	cost-optimization	wshobson/agents	Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques.	38 401
4	distributed-tracing	wshobson/agents	Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes.	38 401
5	grafana-dashboards	wshobson/agents	Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus.	38 401
6	incident-runbook-templates	wshobson/agents	Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production.	38 401
7	prometheus-configuration	wshobson/agents	Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure.	38 401
8	python-observability	wshobson/agents	Instrumenter des applications Python avec logs structurés, métriques et traces distribuées.	38 401
9	service-mesh-observability	wshobson/agents	Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs.	38 401
10	slo-implementation	wshobson/agents	Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services.	38 401
11	spark-memory-thermal-ops	wshobson/agents	Gérer la mémoire unifiée et les thermiques du DGX Spark GB10 efficacement.	38 401
12	aws-cloudwatch-investigation	github/awesome-copilot	Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms.	37 302
13	aws-resource-health-diagnose	github/awesome-copilot	Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch.	37 302
14	flowstudio-power-automate-monitoring	github/awesome-copilot	Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance.	37 302
15	qdrant-monitoring	github/awesome-copilot	Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production.	37 302
16	qdrant-monitoring-debugging	github/awesome-copilot	Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire.	37 302
17	qdrant-monitoring-setup	github/awesome-copilot	Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés.	37 302
18	sentry	openai/skills	Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production.	24 387
19	ff-oce-dashboard	microsoft/fluidframework	Générer un tableau de bord de statut de shift consolidé depuis plusieurs sources internes.	4 938
20	ff-oce-kusto	microsoft/fluidframework	Interroger et déboguer la télémétrie Fluid Framework via des requêtes Kusto Microsoft internes.	4 938
21	sentry-triage	fern-api/fern	Trier et corriger automatiquement les faux positifs Sentry d'un projet CLI.	3 731
22	debug	nvidia/model-optimizer	Exécuter des commandes dans un conteneur Docker depuis l'hôte via relais fichier.	3 356
23	monitor	nvidia/model-optimizer	Surveiller en temps réel des jobs soumis sur clusters SLURM via un registre de session.	3 356
24	applicationinsights-web-ts	microsoft/skills	Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights.	2 844
25	azure-monitor-ingestion-java	microsoft/skills	Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java.	2 844
26	azure-monitor-opentelemetry-exporter-java	microsoft/skills	Exporter des données de télémétrie OpenTelemetry vers Azure Monitor Application Insights.	2 844
27	azure-monitor-opentelemetry-exporter-py	microsoft/skills	Exporter des traces, métriques et logs OpenTelemetry vers Azure Application Insights.	2 844
28	azure-monitor-opentelemetry-py	microsoft/skills	Configurer Azure Monitor avec OpenTelemetry pour instrumenter automatiquement des apps Python.	2 844
29	azure-monitor-opentelemetry-ts	microsoft/skills	Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry.	2 844
30	doca-bench	nvidia/skills	Mesurer les performances des bibliothèques DOCA sur un dispositif réel avec doca_bench.	2 747
31	doca-bench-extension	nvidia/skills	Étendre doca-bench avec des plugins personnalisés pour benchmarker des workloads non natifs.	2 747
32	doca-collectx-deployment	nvidia/skills	Déployer et opérer un collecteur de télémétrie CollectX sur hôte ou BlueField.	2 747
33	doca-dpa-hl-tracer	nvidia/skills	Capturer et analyser les traces d'exécution haute-level du processeur DPA avec un overhead maîtrisé.	2 747
34	doca-flow-perf	nvidia/skills	Mesurer les performances d'insertion de règles DOCA Flow avec docaflowperf.	2 747
35	doca-flow-tune	nvidia/skills	Analyser et optimiser un pipeline DOCA Flow via capture, monitoring et visualisation.	2 747
36	doca-pcc-counters	nvidia/skills	Lire les compteurs diagnostiques PCC firmware/HW d'un device ConnectX via debugfs.	2 747
37	doca-telemetry	nvidia/skills	Lire les compteurs matériels DOCA depuis un périphérique via les bibliothèques par domaine.	2 747
38	doca-telemetry-exporter	nvidia/skills	Configurer, émettre et déboguer la télémétrie structurée via DOCA Telemetry Exporter.	2 747
39	doca-telemetry-utils	nvidia/skills	Diagnostiquer et traduire les compteurs de télémétrie DOCA via l'utilitaire CLI hôte.	2 747
40	dynamo-interconnect-check	nvidia/skills	Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark.	2 747
41	dynamo-troubleshoot	nvidia/skills	Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises.	2 747
42	jetson-diagnostic	nvidia/skills	Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources.	2 747
43	jetson-memory-audit	nvidia/skills	Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload.	2 747
44	nemo-relay-plugin-observability	nvidia/skills	Configurer et orchestrer les plugins d'observabilité pour capturer et exporter les événements d'un agent IA.	2 747
45	vss-manage-alerts	nvidia/skills	Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel.	2 747
46	vss-manage-alerts	nvidia-ai-blueprints/video-search-and-summarization	Gérer les alertes VSS en temps réel : détection, notifications Slack et onboarding caméra.	1 765
47	azure-cost	microsoft/azure-skills	Interroger, prévoir et optimiser les coûts Azure pour réduire les dépenses cloud.	1 345
48	azure-diagnostics	microsoft/azure-skills	Diagnostiquer et résoudre les incidents Azure sur App Service, AKS, Functions et Messaging.	1 345
49	azure-kusto	microsoft/azure-skills	Interroger et analyser des données massives dans Azure Data Explorer via KQL.	1 345
50	status	oceanbase/powermem	Afficher le statut de connexion et l'état de santé du plugin PowerMem.	793

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.