Monitoring & Observabilité

Logs, traces et metriques : OpenTelemetry, Sentry, Application Insights, Grafana.

117 skills

#	Skill	Source	Description		Maj
1	dd-browser-sdk	datadog-labs/agent-skills	Mettre à niveau le SDK navigateur Datadog de la version 6 à 7.	136	1j
2	upgrade-browser-sdk-v7	datadog-labs/agent-skills	Migrer le SDK Browser Datadog de la version 6 à la version 7.	136	1j
3	upgrade-browser-sdk-v5	datadog-labs/agent-skills	Migrer le SDK Datadog Browser de la version 4 à la version 5 pas à pas.	136	1j
4	upgrade-browser-sdk-v6	datadog-labs/agent-skills	Migrer le SDK Datadog Browser de la version 5 à la version 6 pas à pas.	136	1j
5	datadog-app	datadog-labs/agent-skills	Développer des Datadog Apps avec React, TypeScript et publication sur site Datadog.	136	2j
6	firebase-crashlytics	firebase/agent-skills	Intégrer et configurer Crashlytics pour collecter des données de crash Android ou iOS.	363	5j
7	jetson-diagnostic	nvidia/skills	Capturer un snapshot de santé en temps réel d'un appareil Jetson pour diagnostiquer ses ressources.	1 960	5j
8	jetson-memory-audit	nvidia/skills	Auditer la mémoire d'un Jetson et libérer les caches CUDA bloqués après un workload.	1 960	5j
9	AWS CloudWatch Investigation	github/awesome-copilot	Investiguer des incidents AWS production via CloudWatch Logs, Metrics et Alarms.	35 826	5j
10	troubleshoot-ssi	datadog-labs/agent-skills	Diagnostiquer et résoudre les échecs d'injection SSI APM sur Linux.	136	11j
11	agent-skills	datadog-labs/agent-skills	Gérer la surveillance, les logs et les traces Datadog via un agent IA.	136	11j
12	agent-observability-eval-bootstrap	datadog-labs/agent-skills	Analyser des traces LLM de production pour générer et publier une suite d'évaluateurs Datadog.	136	12j
13	agent-observability-eval-pipeline	datadog-labs/agent-skills	Orchestrer un pipeline d'évaluation en six phases pour analyser et améliorer des agents IA instrumentés.	136	12j
14	agent-observability-experiment-analyzer	datadog-labs/agent-skills	Analyser un ou deux experiments LLM pour en extraire insights et comparaisons.	136	12j
15	agent-observability-experiment-py-bootstrap	datadog-labs/agent-skills	Générer un script Python ou notebook Jupyter d'expérimentation LLM avec ddtrace.llmobs.	136	12j
16	agent-observability-session-classify	datadog-labs/agent-skills	Classifier la satisfaction des sessions d'agents IA via Datadog LLM Observability.	136	12j
17	agent-observability-trace-rca	datadog-labs/agent-skills	Diagnostiquer les défaillances d'applications LLM en analysant les traces de production jusqu'à la cause racine.	136	12j
18	vss-manage-alerts	nvidia/skills	Gérer les alertes VSS : détection, notifications Slack, caméras et abonnements en temps réel.	1 960	12j
19	vss-manage-alerts	nvidia-ai-blueprints/video-search-and-summarization	Gérer les alertes VSS en temps réel : détection, notifications Slack et onboarding caméra.	1 677	13j
20	exploring-apm-traces	posthog/skills	Explorer les traces APM OpenTelemetry pour analyser performances et erreurs des services distribués.	48	13j
21	debugging-signals-pipeline	posthog/skills	Déboguer et monitorer un pipeline de traitement de signaux Temporal end-to-end.	48	13j
22	signals-scout-error-tracking	posthog/skills	Détecter et analyser les anomalies d'exceptions dans les logs d'erreurs d'une équipe.	48	13j
23	signals-scout-health-checks	posthog/skills	Analyser les problèmes de santé PostHog et synthétiser les alertes actionnables par sévérité.	48	13j
24	signals-scout-inbox-validation	posthog/skills	Vérifier que les correctifs fusionnés ont réellement résolu les problèmes signalés.	48	13j
25	signals-scout-logs	posthog/skills	Surveiller les logs d'un projet pour détecter anomalies de volume et sévérité.	48	13j
26	signals-scout-observability-gaps	posthog/skills	Détecter et recommander des lacunes d'observabilité dans la couverture d'événements d'une équipe.	48	13j
27	axiom-sre	axiomhq/skills	Diagnostiquer et résoudre des incidents SRE avec rigueur data-driven et sans jamais exposer de secrets.	10	15j
28	llm-obs-experiment-analyzer	datadog-labs/agent-skills	Analyser et comparer des expériences LLM pour en extraire insights et métriques clés.	136	17j
29	aws-resource-health-diagnose	github/awesome-copilot	Diagnostiquer et remédier aux problèmes de santé des ressources AWS via CloudWatch.	35 826	17j
30	sentry	anthropics/claude-cookbooks	Configurer des credentials Sentry chiffrés en vault pour un agent planifié.	46 044	18j
31	clickhouse-managed-postgres-rca	clickhouse/agent-skills	Diagnostiquer automatiquement les incidents de performance sur une instance Postgres managée ClickHouse.	477	19j
32	service-remapping	datadog-labs/agent-skills	Créer des règles de remappage APM pour renommer ou regrouper des services Datadog sans réinstrumentation.	136	24j
33	qdrant-monitoring-setup	qdrant/skills	Configurer le monitoring Qdrant avec Prometheus, alertes et logs centralisés.	181	24j
34	llm-obs-eval-bootstrap	datadog-labs/agent-skills	Générer une suite d'évaluateurs prêts à l'emploi à partir de traces LLM en production.	136	25j
35	instrument-error-tracking	posthog/skills	Intégrer PostHog pour capturer et surveiller les exceptions dans une application.	48	26j
36	instrument-logs	posthog/skills	Intégrer la capture de logs PostHog via OpenTelemetry dans tout projet existant.	48	26j
37	dd-apm	datadog-labs/agent-skills	Monitorer les performances applicatives avec le tracing distribué et l'instrumentation Kubernetes.	136	29j
38	dd-logs	datadog-labs/agent-skills	Rechercher, filtrer et archiver des logs Datadog avec contrôle des coûts.	136	29j
39	dd-monitors	datadog-labs/agent-skills	Créer, gérer et auditer des monitors d'alerting Datadog avec les meilleures pratiques.	136	29j
40	dd-pup	datadog-labs/agent-skills	Interagir avec l'API Datadog via CLI pour logs, monitors, traces et incidents.	136	29j
41	dynamo-interconnect-check	nvidia/skills	Vérifier le transport RDMA/NVLink d'un déploiement Dynamo disaggrégé avant benchmark.	1 960	29j
42	dynamo-troubleshoot	nvidia/skills	Diagnostiquer et classifier les pannes Dynamo pour proposer des actions correctives précises.	1 960	29j
43	nemoclaw-user-monitor-sandbox	nvidia/skills	Surveiller l'état, les logs et le réseau d'un sandbox NemoClaw pour diagnostiquer.	1 960	1mo
44	redis-observability	redis/agent-skills	Surveiller, diagnostiquer et alerter sur les métriques clés d'une instance Redis.	78	1mo
45	distributed-tracing	wshobson/agents	Implémenter le traçage distribué avec Jaeger et Tempo pour visualiser les flux de requêtes.	37 258	1mo
46	prometheus-configuration	wshobson/agents	Configurer Prometheus pour la collecte de métriques, alertes et monitoring d'infrastructure.	37 258	1mo
47	slo-implementation	wshobson/agents	Définir et implémenter des SLIs, SLOs et budgets d'erreur pour fiabiliser les services.	37 258	1mo
48	python-observability	wshobson/agents	Instrumenter des applications Python avec logs structurés, métriques et traces distribuées.	37 258	1mo
49	service-mesh-observability	wshobson/agents	Configurer l'observabilité complète d'un service mesh avec métriques, traces et logs.	37 258	1mo
50	incident-runbook-templates	wshobson/agents	Générer des runbooks d'incident structurés pour guider la réponse opérationnelle en production.	37 258	1mo

À propos de cette sélection

L'observabilité est souvent le dernier chantier qu'on branche et le premier qu'on regrette d'avoir bâclé. Quand un agent commence à enchaîner des appels LLM en production, savoir exactement où la latence explose ou quel span a silencieusement échoué transforme radicalement le débogage. Les skills monitoring & observabilité rassemblés ici couvrent des cas concrets : instrumenter un pipeline d'inférence pour en extraire des traces exploitables, ou auditer la consommation réelle d'un assistant Copilot avant que la facture surprenne tout le monde. L'outillage disponible est déjà dense, avec des contributions notables de Datadog Labs et Dash0 couvrant OpenTelemetry, les métriques système sous Linux et le troubleshooting de performance sur des stacks variées. Le profil qui atterrit ici : un SRE ou un ML engineer qui veut enfin piloter avec des données concrètes sous les yeux.