Comment Configurer la Surveillance Qdrant

Commencez par faire fonctionner le scraping Prometheus, puis les sondes de santé, puis les alertes. Ne sautez pas la configuration de la surveillance avant de passer en production.

Métriques Prometheus

À utiliser : lors de la mise en place de la collecte de métriques pour la première fois ou lors de l'ajout d'un nouveau déploiement.

Métriques de nœud au endpoint /metrics Documentation de surveillance
Métriques de cluster à /sys_metrics (Qdrant Cloud uniquement)
Personnalisation du préfixe via la configuration service.metrics_prefix ou la variable d'environnement QDRANT__SERVICE__METRICS_PREFIX
Exemple de configuration auto-hébergée avec Prometheus + Grafana dépôt prometheus-monitoring

Scraping Hybrid Cloud

À utiliser : lors de l'exécution de Qdrant Hybrid Cloud et si vous avez besoin de visibilité au niveau du cluster.

Ne faites pas seulement du scraping des nœuds Qdrant. Dans Hybrid Cloud, vous gérez le plan de données Kubernetes. Vous devez également faire du scraping des pods cluster-exporter et operator pour une visibilité complète du cluster et l'état de l'opérateur.

Tutoriel de configuration Prometheus pour Hybrid Cloud Hybrid Cloud Prometheus
Tableaux de bord Grafana officiels dépôt de tableaux de bord Grafana

Sondes de Liveness et Readiness

À utiliser : lors de la configuration des vérifications de santé Kubernetes.

Utilisez /healthz, /livez, /readyz pour le statut de base, la liveness et la readiness Endpoints de santé Kubernetes

Alertage

À utiliser : lors de la mise en place d'alertes pour les déploiements en production ou Hybrid Cloud.

Hybrid Cloud fournit environ 11 alertes Prometheus préconfigurées prêtes à l'emploi Surveillance du cluster Cloud
Utilisez AlertmanagerConfig pour acheminer les alertes vers Slack, PagerDuty ou d'autres cibles en fonction des labels
Au minimum, alertez sur : erreurs d'optimiseur, nœud non prêt, facteur de réplication inférieur à la cible, utilisation disque >80%

Centralisation des Journaux et Journalisation d'Audit

À utiliser : lorsque la conformité d'entreprise nécessite des journaux centralisés ou des pistes d'audit.

Activez le format de journalisation JSON pour l'analyse structurée : définissez logger.format sur json dans la configuration Configuration
Utilisez FluentD/OpenSearch pour l'agrégation des journaux
Les journaux d'audit (v1.17+) s'écrivent dans le système de fichiers local (/qdrant/storage/audit/), pas sur stdout. Montez un Volume Persistant et déployez un conteneur sidecar pour rediriger ces fichiers vers stdout afin que les DaemonSets puissent les récupérer. Journalisation d'audit

Ce qu'il NE FAUT PAS Faire

Faire du scraping de /sys_metrics sur auto-hébergé (disponible uniquement sur Qdrant Cloud)
Faire du scraping uniquement des nœuds Qdrant dans Hybrid Cloud (manquer les métriques cluster-exporter et operator)
Sauter la configuration de la surveillance avant d'aller en production (vous le regretterez)
Alerter sur l'utilisation de la mémoire du page cache (elle est censée remplir la RAM disponible, comportement normal du système d'exploitation)