Comment Configurer la Surveillance Qdrant
Commencez par faire fonctionner le scraping Prometheus, puis les sondes de santé, puis les alertes. Ne sautez pas la configuration de la surveillance avant de passer en production.
Métriques Prometheus
À utiliser : lors de la mise en place de la collecte de métriques pour la première fois ou lors de l'ajout d'un nouveau déploiement.
- Métriques de nœud au endpoint
/metricsDocumentation de surveillance - Métriques de cluster à
/sys_metrics(Qdrant Cloud uniquement) - Personnalisation du préfixe via la configuration
service.metrics_prefixou la variable d'environnementQDRANT__SERVICE__METRICS_PREFIX - Exemple de configuration auto-hébergée avec Prometheus + Grafana dépôt prometheus-monitoring
Scraping Hybrid Cloud
À utiliser : lors de l'exécution de Qdrant Hybrid Cloud et si vous avez besoin de visibilité au niveau du cluster.
Ne faites pas seulement du scraping des nœuds Qdrant. Dans Hybrid Cloud, vous gérez le plan de données Kubernetes. Vous devez également faire du scraping des pods cluster-exporter et operator pour une visibilité complète du cluster et l'état de l'opérateur.
- Tutoriel de configuration Prometheus pour Hybrid Cloud Hybrid Cloud Prometheus
- Tableaux de bord Grafana officiels dépôt de tableaux de bord Grafana
Sondes de Liveness et Readiness
À utiliser : lors de la configuration des vérifications de santé Kubernetes.
- Utilisez
/healthz,/livez,/readyzpour le statut de base, la liveness et la readiness Endpoints de santé Kubernetes
Alertage
À utiliser : lors de la mise en place d'alertes pour les déploiements en production ou Hybrid Cloud.
- Hybrid Cloud fournit environ 11 alertes Prometheus préconfigurées prêtes à l'emploi Surveillance du cluster Cloud
- Utilisez AlertmanagerConfig pour acheminer les alertes vers Slack, PagerDuty ou d'autres cibles en fonction des labels
- Au minimum, alertez sur : erreurs d'optimiseur, nœud non prêt, facteur de réplication inférieur à la cible, utilisation disque >80%
Centralisation des Journaux et Journalisation d'Audit
À utiliser : lorsque la conformité d'entreprise nécessite des journaux centralisés ou des pistes d'audit.
- Activez le format de journalisation JSON pour l'analyse structurée : définissez
logger.formatsurjsondans la configuration Configuration - Utilisez FluentD/OpenSearch pour l'agrégation des journaux
- Les journaux d'audit (v1.17+) s'écrivent dans le système de fichiers local (
/qdrant/storage/audit/), pas sur stdout. Montez un Volume Persistant et déployez un conteneur sidecar pour rediriger ces fichiers vers stdout afin que les DaemonSets puissent les récupérer. Journalisation d'audit
Ce qu'il NE FAUT PAS Faire
- Faire du scraping de
/sys_metricssur auto-hébergé (disponible uniquement sur Qdrant Cloud) - Faire du scraping uniquement des nœuds Qdrant dans Hybrid Cloud (manquer les métriques cluster-exporter et operator)
- Sauter la configuration de la surveillance avant d'aller en production (vous le regretterez)
- Alerter sur l'utilisation de la mémoire du page cache (elle est censée remplir la RAM disponible, comportement normal du système d'exploitation)