qdrant-monitoring-setup

--- Guides de configuration de la surveillance Qdrant incluant le scraping Prometheus, les sondes de santé, les métriques Hybrid Cloud, les alertes et la centralisation des journaux. À utiliser quand quelqu'un demande « comment configurer la surveillance », « config Prometheus », « tableau de bord Grafana », « points de terminaison de vérification de santé », « comment scraper Hybrid Cloud », « quelles alertes définir », « comment centraliser les journaux » ou « journalisation d'audit ».

npx skills add https://github.com/qdrant/skills --skill qdrant-monitoring-setup

Comment Configurer la Surveillance Qdrant

Commencez par faire fonctionner le scraping Prometheus, puis les sondes de santé, puis les alertes. Ne sautez pas la configuration de la surveillance avant de passer en production.

Métriques Prometheus

À utiliser : lors de la mise en place de la collecte de métriques pour la première fois ou lors de l'ajout d'un nouveau déploiement.

  • Métriques de nœud au endpoint /metrics Documentation de surveillance
  • Métriques de cluster à /sys_metrics (Qdrant Cloud uniquement)
  • Personnalisation du préfixe via la configuration service.metrics_prefix ou la variable d'environnement QDRANT__SERVICE__METRICS_PREFIX
  • Exemple de configuration auto-hébergée avec Prometheus + Grafana dépôt prometheus-monitoring

Scraping Hybrid Cloud

À utiliser : lors de l'exécution de Qdrant Hybrid Cloud et si vous avez besoin de visibilité au niveau du cluster.

Ne faites pas seulement du scraping des nœuds Qdrant. Dans Hybrid Cloud, vous gérez le plan de données Kubernetes. Vous devez également faire du scraping des pods cluster-exporter et operator pour une visibilité complète du cluster et l'état de l'opérateur.

Sondes de Liveness et Readiness

À utiliser : lors de la configuration des vérifications de santé Kubernetes.

Alertage

À utiliser : lors de la mise en place d'alertes pour les déploiements en production ou Hybrid Cloud.

  • Hybrid Cloud fournit environ 11 alertes Prometheus préconfigurées prêtes à l'emploi Surveillance du cluster Cloud
  • Utilisez AlertmanagerConfig pour acheminer les alertes vers Slack, PagerDuty ou d'autres cibles en fonction des labels
  • Au minimum, alertez sur : erreurs d'optimiseur, nœud non prêt, facteur de réplication inférieur à la cible, utilisation disque >80%

Centralisation des Journaux et Journalisation d'Audit

À utiliser : lorsque la conformité d'entreprise nécessite des journaux centralisés ou des pistes d'audit.

  • Activez le format de journalisation JSON pour l'analyse structurée : définissez logger.format sur json dans la configuration Configuration
  • Utilisez FluentD/OpenSearch pour l'agrégation des journaux
  • Les journaux d'audit (v1.17+) s'écrivent dans le système de fichiers local (/qdrant/storage/audit/), pas sur stdout. Montez un Volume Persistant et déployez un conteneur sidecar pour rediriger ces fichiers vers stdout afin que les DaemonSets puissent les récupérer. Journalisation d'audit

Ce qu'il NE FAUT PAS Faire

  • Faire du scraping de /sys_metrics sur auto-hébergé (disponible uniquement sur Qdrant Cloud)
  • Faire du scraping uniquement des nœuds Qdrant dans Hybrid Cloud (manquer les métriques cluster-exporter et operator)
  • Sauter la configuration de la surveillance avant d'aller en production (vous le regretterez)
  • Alerter sur l'utilisation de la mémoire du page cache (elle est censée remplir la RAM disponible, comportement normal du système d'exploitation)