Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

117 skills

#	Skill	Source	Description		Δ
1	monitor	nvidia/skills	Surveiller et rapporter l'état des jobs SLURM soumis à des clusters HPC.	1 970	537
2	nemoclaw-user-monitor-sandbox	nvidia/skills	Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer.	1 970	537
3	ad-conf-check	nvidia/skills	Vérifier l'application des configs YAML AutoDeploy via logs serveur et dumps de graphes.	1 970	537
4	perf-host-analysis	nvidia/skills	Analyser les surcharges CPU dans des traces nsys pour les workloads d'inférence TensorRT-LLM.	1 970	537
5	perf-nsight-compute-analysis	nvidia/skills	Analyser et optimiser les performances de kernels CUDA avec NVIDIA Nsight Compute.	1 970	537
6	perf-nsight-systems	nvidia/skills	Profiler un script d'entraînement DL pour analyser l'utilisation GPU et les goulots d'étranglement.	1 970	537
7	perf-workload-profiling	nvidia/skills	Profiler les charges de travail GPU avec timing précis et isolation des phases.	1 970	537
8	alerts	nvidia/skills	Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif.	1 970	537
9	dynamo-interconnect-check	nvidia/skills	Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark.	1 970	537
10	dynamo-troubleshoot	nvidia/skills	Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises.	1 970	537
11	vss-manage-alerts	nvidia/skills	Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel.	1 970	537
12	jetson-diagnostic	nvidia/skills	Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources.	1 970	537
13	jetson-memory-audit	nvidia/skills	Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload.	1 970	537
14	flowstudio-power-automate-monitoring	github/awesome-copilot	Surveiller la santé des flux Power Automate via un cache enrichi de métadonnées de gouvernance.	35 830	392
15	qdrant-monitoring	github/awesome-copilot	Surveiller et diagnostiquer les performances d'un déploiement Qdrant en production.	35 830	392
16	qdrant-monitoring-debugging	github/awesome-copilot	Diagnostiquer les problèmes de performance Qdrant via métriques d'optimisation et mémoire.	35 830	392
17	qdrant-monitoring-setup	github/awesome-copilot	Configurer la surveillance Qdrant avec Prometheus, alertes et logs centralisés.	35 830	392
18	aws-resource-health-diagnose	github/awesome-copilot	Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch.	35 830	392
19	AWS CloudWatch Investigation	github/awesome-copilot	Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms.	35 830	392
20	sentry	openai/skills	Interroger Sentry en lecture seule pour analyser, diagnostiquer et expliquer les erreurs de production.	22 951	302
21	sentry	anthropics/claude-cookbooks	Configurer des credentials Sentry chiffrés en vault pour un agent planifié.	46 044	280
22	cost-optimization	wshobson/agents	Optimiser les coûts cloud sur AWS, Azure, GCP et OCI via des stratégies systématiques.	37 260	240
23	service-mesh-observability	wshobson/agents	Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs.	37 260	240
24	incident-runbook-templates	wshobson/agents	Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production.	37 260	240
25	distributed-tracing	wshobson/agents	Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes.	37 260	240
26	grafana-dashboards	wshobson/agents	Créer et gérer des dashboards Grafana prêts pour la production avec Prometheus.	37 260	240
27	prometheus-configuration	wshobson/agents	Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure.	37 260	240
28	slo-implementation	wshobson/agents	Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services.	37 260	240
29	python-observability	wshobson/agents	Instrumenter des applications Python avec logs structurés, métriques et traces distribuées.	37 260	240
30	alerts	nvidia-ai-blueprints/video-search-and-summarization	Gérer les alertes VSS en mode CV ou VLM selon le déploiement actif.	1 677	108
31	vss-manage-alerts	nvidia-ai-blueprints/video-search-and-summarization	Gérer les alertes VSS en temps réel : détection, notifications Slack et onboarding caméra.	1 677	108
32	azure-monitor-ingestion-java	microsoft/skills	Envoyer des logs personnalisés vers Azure Monitor via l'API d'ingestion Java.	2 625	27
33	azure-monitor-opentelemetry-exporter-java	microsoft/skills	Exporter des données de télémétrie OpenTelemetry vers Azure Monitor Application Insights.	2 625	27
34	azure-monitor-opentelemetry-exporter-py	microsoft/skills	Exporter des traces, métriques et logs OpenTelemetry vers Azure Application Insights.	2 625	27
35	azure-monitor-opentelemetry-py	microsoft/skills	Configurer Azure Monitor avec OpenTelemetry pour instrumenter automatiquement des apps Python.	2 625	27
36	applicationinsights-web-ts	microsoft/skills	Monitorer les performances et comportements utilisateurs dans les apps web via Application Insights.	2 625	27
37	azure-monitor-opentelemetry-ts	microsoft/skills	Instrumenter automatiquement des applications Node.js avec Azure Monitor et OpenTelemetry.	2 625	27
38	qdrant-monitoring-setup	qdrant/skills	Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés.	181	10
39	clickhouse-managed-postgres-rca	clickhouse/agent-skills	Diagnostiquer automatiquement les incidents de performance sur une instance Postgres managée ClickHouse.	477	9
40	firebase-crashlytics	firebase/agent-skills	Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS.	363	5
41	agent-skills	datadog-labs/agent-skills	Gérer la surveillance, les logs et les traces Datadog via un agent IA.	136	4
42	dd-apm	datadog-labs/agent-skills	Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes.	136	4
43	agent-install	datadog-labs/agent-skills	Installer et configurer l'agent Datadog avec SSI sur des hôtes Linux distants.	136	4
44	enable-ssi	datadog-labs/agent-skills	Configurer les balises de service unifiées Datadog via SSI sur Linux.	136	4
45	onboarding-summary	datadog-labs/agent-skills	Générer un rapport de confirmation complet après l'onboarding APM sur un hôte Linux.	136	4
46	troubleshoot-ssi	datadog-labs/agent-skills	Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux.	136	4
47	verify-ssi	datadog-labs/agent-skills	Vérifier l'instrumentation automatique APM SSI sur un hôte Linux via SSH.	136	4
48	dd-browser-sdk	datadog-labs/agent-skills	Mettre à niveau le SDK navigateur Datadog de la version 6 à 7.	136	4
49	upgrade-browser-sdk-v7	datadog-labs/agent-skills	Migrer le SDK Browser Datadog de la version 6 à la version 7.	136	4
50	dd-docs	datadog-labs/agent-skills	Localiser et consulter la documentation officielle Datadog via un index optimisé.	136	4

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.