Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

117 skills

#	Skill	Source	Description		Δ
1	monitor	nvidia/skills	Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC.	1 960	8
2	nemoclaw-user-monitor-sandbox	nvidia/skills	Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer.	1 960	8
3	ad-conf-check	nvidia/skills	Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes.	1 960	8
4	perf-host-analysis	nvidia/skills	Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM.	1 960	8
5	perf-nsight-compute-analysis	nvidia/skills	Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute.	1 960	8
6	perf-nsight-systems	nvidia/skills	Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement.	1 960	8
7	perf-workload-profiling	nvidia/skills	Profiler les charges de travail GPU avec timing précis et isolation des phases.	1 960	8
8	alerts	nvidia/skills	Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif.	1 960	8
9	dynamo-interconnect-check	nvidia/skills	Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark.	1 960	8
10	dynamo-troubleshoot	nvidia/skills	Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises.	1 960	8
11	vss-manage-alerts	nvidia/skills	Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel.	1 960	8
12	jetson-diagnostic	nvidia/skills	Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources.	1 960	8
13	jetson-memory-audit	nvidia/skills	Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload.	1 960	8
14	sentry	anthropics/claude-cookbooks	Configurer des credentials Sentry chiffrés en vault pour un agent planifié.	46 044	3
15	sentry	openai/skills	Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production.	22 950	2
16	cost-optimization	wshobson/agents	Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques.	37 258	2
17	service-mesh-observability	wshobson/agents	Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs.	37 258	2
18	incident-runbook-templates	wshobson/agents	Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production.	37 258	2
19	distributed-tracing	wshobson/agents	Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes.	37 258	2
20	grafana-dashboards	wshobson/agents	Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus.	37 258	2
21	prometheus-configuration	wshobson/agents	Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure.	37 258	2
22	slo-implementation	wshobson/agents	Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services.	37 258	2
23	python-observability	wshobson/agents	Instrumenter des applications Python avec logs structurés, métriques et traces distribuées.	37 258	2
24	azure-monitor-ingestion-java	microsoft/skills	Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java.	2 624	1
25	azure-monitor-opentelemetry-exporter-java	microsoft/skills	Exporter des données de télémétrie OpenTelemetry vers Azure Monitor Application Insights.	2 624	1
26	azure-monitor-opentelemetry-exporter-py	microsoft/skills	Exporter des traces, métriques et logs OpenTelemetry vers Azure Application Insights.	2 624	1
27	azure-monitor-opentelemetry-py	microsoft/skills	Configurer Azure Monitor avec OpenTelemetry pour instrumenter automatiquement des apps Python.	2 624	1
28	applicationinsights-web-ts	microsoft/skills	Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights.	2 624	1
29	azure-monitor-opentelemetry-ts	microsoft/skills	Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry.	2 624	1
30	flowstudio-power-automate-monitoring	github/awesome-copilot	Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance.	35 826	1
31	qdrant-monitoring	github/awesome-copilot	Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production.	35 826	1
32	qdrant-monitoring-debugging	github/awesome-copilot	Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire.	35 826	1
33	qdrant-monitoring-setup	github/awesome-copilot	Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés.	35 826	1
34	aws-resource-health-diagnose	github/awesome-copilot	Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch.	35 826	1
35	AWS CloudWatch Investigation	github/awesome-copilot	Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms.	35 826	1
36	qdrant-monitoring-setup	qdrant/skills	Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés.	181	0
37	troubleshooting-astro-deployments	astronomer/agents	Diagnostiquer et résoudre les problèmes de déploiements Astronomer en production via l'Astro CLI.	393	0
38	building-dashboards	axiomhq/skills	Concevoir des dashboards décisionnels en APL ou MPL à partir de données réelles.	10	0
39	controlling-costs	axiomhq/skills	Optimiser les coûts Axiom via dashboards, moniteurs et détection de gaspillage.	10	0
40	query-metrics	axiomhq/skills	Interroger et explorer des métriques OpenTelemetry stockées dans Axiom MetricsDB.	10	0
41	axiom-sre	axiomhq/skills	Diagnostiquer et résoudre des incidents SRE avec rigueur data-driven et sans jamais exposer de secrets.	10	0
42	otel-collector	dash0hq/agent-skills	Configurer et déployer l'OpenTelemetry Collector pour collecter et exporter la télémétrie.	68	0
43	otel-instrumentation	dash0hq/agent-skills	Implémenter une télémétrie OpenTelemetry de qualité, efficace et sécurisée.	68	0
44	otel-ottl	dash0hq/agent-skills	Transformer, filtrer et manipuler des données de télémétrie OpenTelemetry via OTTL.	68	0
45	otel-semantic-conventions	dash0hq/agent-skills	Valider et placer correctement les attributs de télémétrie selon OpenTelemetry Semantic Conventions.	68	0
46	agent-skills	datadog-labs/agent-skills	Gérer la surveillance, les logs et les traces Datadog via un agent IA.	136	0
47	dd-apm	datadog-labs/agent-skills	Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes.	136	0
48	agent-install	datadog-labs/agent-skills	Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants.	136	0
49	enable-ssi	datadog-labs/agent-skills	Configurer les balises de service unifiées Datadog via SSI sur Linux.	136	0
50	onboarding-summary	datadog-labs/agent-skills	Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux.	136	0

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.