qdrant-monitoring-setup

Guide de configuration du monitoring Qdrant incluant le scraping Prometheus, les sondes de santé, les métriques Hybrid Cloud, les alertes et la centralisation des logs. À utiliser quand quelqu'un demande « comment configurer le monitoring », « config Prometheus », « dashboard Grafana », « endpoints de health check », « comment scraper Hybrid Cloud », « quelles alertes définir », « comment centraliser les logs » ou « audit logging ».

npx skills add https://github.com/qdrant/skills --skill qdrant-monitoring-setup

Guide de configuration de la surveillance Qdrant

Commencez par faire fonctionner le scraping Prometheus, puis les sondes de santé, puis les alertes. Ne sautez pas la configuration de la surveillance avant de passer en production.

Métriques Prometheus

À utiliser quand : vous configurez la collecte de métriques pour la première fois ou ajoutez un nouveau déploiement.

  • Métriques de nœud à l'endpoint /metrics Documentation de surveillance
  • Métriques de cluster à /sys_metrics (Qdrant Cloud uniquement)
  • Personnalisation du préfixe via le paramètre de config service.metrics_prefix ou la variable d'env QDRANT__SERVICE__METRICS_PREFIX
  • Exemple de configuration auto-hébergée avec Prometheus + Grafana dépôt prometheus-monitoring

Scraping Hybrid Cloud

À utiliser quand : vous exécutez Qdrant Hybrid Cloud et avez besoin de visibilité au niveau du cluster.

Ne scrapez pas simplement les nœuds Qdrant. Dans Hybrid Cloud, vous gérez le plan de données Kubernetes. Vous devez aussi scraper les pods cluster-exporter et operator pour une visibilité complète du cluster et l'état de l'opérateur.

Sondes de vivacité et de disponibilité

À utiliser quand : vous configurez les vérifications de santé Kubernetes.

Alertes

À utiliser quand : vous configurez les alertes pour les déploiements en production ou Hybrid Cloud.

  • Hybrid Cloud fournit ~11 alertes Prometheus pré-configurées en standard Surveillance du cluster Cloud
  • Utilisez AlertmanagerConfig pour router les alertes vers Slack, PagerDuty ou d'autres cibles selon les labels
  • Au minimum, alertez sur : erreurs d'optimiseur, nœud non prêt, facteur de réplication en dessous de la cible, utilisation du disque >80%

Centralisation des logs et audit logging

À utiliser quand : la conformité d'entreprise nécessite des logs centralisés ou des pistes d'audit.

  • Activez le format JSON pour une analyse structurée : définissez logger.format à json dans la config Configuration
  • Utilisez FluentD/OpenSearch pour l'agrégation des logs
  • Les audit logs (v1.17+) s'écrivent dans le système de fichiers local (/qdrant/storage/audit/), pas sur stdout. Montez un Persistent Volume et déployez un conteneur sidecar pour envoyer ces fichiers vers stdout afin que les DaemonSets puissent les récupérer. Audit logging

À NE PAS faire

  • Scraper /sys_metrics sur une installation auto-hébergée (disponible uniquement sur Qdrant Cloud)
  • Scraper uniquement les nœuds Qdrant dans Hybrid Cloud (vous manqueriez les métriques cluster-exporter et operator)
  • Sauter la configuration de la surveillance avant de passer en production (vous le regretterez)
  • Alerter sur l'utilisation de mémoire page cache (c'est supposé remplir la RAM disponible, comportement normal du système)

Skills similaires