Guide de configuration de la surveillance Qdrant
Commencez par faire fonctionner le scraping Prometheus, puis les sondes de santé, puis les alertes. Ne sautez pas la configuration de la surveillance avant de passer en production.
Métriques Prometheus
À utiliser quand : vous configurez la collecte de métriques pour la première fois ou ajoutez un nouveau déploiement.
- Métriques de nœud à l'endpoint
/metricsDocumentation de surveillance - Métriques de cluster à
/sys_metrics(Qdrant Cloud uniquement) - Personnalisation du préfixe via le paramètre de config
service.metrics_prefixou la variable d'envQDRANT__SERVICE__METRICS_PREFIX - Exemple de configuration auto-hébergée avec Prometheus + Grafana dépôt prometheus-monitoring
Scraping Hybrid Cloud
À utiliser quand : vous exécutez Qdrant Hybrid Cloud et avez besoin de visibilité au niveau du cluster.
Ne scrapez pas simplement les nœuds Qdrant. Dans Hybrid Cloud, vous gérez le plan de données Kubernetes. Vous devez aussi scraper les pods cluster-exporter et operator pour une visibilité complète du cluster et l'état de l'opérateur.
- Tutoriel de configuration Prometheus Hybrid Cloud Hybrid Cloud Prometheus
- Dashboards Grafana officiels dépôt dashboard Grafana
Sondes de vivacité et de disponibilité
À utiliser quand : vous configurez les vérifications de santé Kubernetes.
- Utilisez
/healthz,/livez,/readyzpour l'état basique, la vivacité et la disponibilité Points de terminaison de santé Kubernetes
Alertes
À utiliser quand : vous configurez les alertes pour les déploiements en production ou Hybrid Cloud.
- Hybrid Cloud fournit ~11 alertes Prometheus pré-configurées en standard Surveillance du cluster Cloud
- Utilisez AlertmanagerConfig pour router les alertes vers Slack, PagerDuty ou d'autres cibles selon les labels
- Au minimum, alertez sur : erreurs d'optimiseur, nœud non prêt, facteur de réplication en dessous de la cible, utilisation du disque >80%
Centralisation des logs et audit logging
À utiliser quand : la conformité d'entreprise nécessite des logs centralisés ou des pistes d'audit.
- Activez le format JSON pour une analyse structurée : définissez
logger.formatàjsondans la config Configuration - Utilisez FluentD/OpenSearch pour l'agrégation des logs
- Les audit logs (v1.17+) s'écrivent dans le système de fichiers local (
/qdrant/storage/audit/), pas sur stdout. Montez un Persistent Volume et déployez un conteneur sidecar pour envoyer ces fichiers vers stdout afin que les DaemonSets puissent les récupérer. Audit logging
À NE PAS faire
- Scraper
/sys_metricssur une installation auto-hébergée (disponible uniquement sur Qdrant Cloud) - Scraper uniquement les nœuds Qdrant dans Hybrid Cloud (vous manqueriez les métriques cluster-exporter et operator)
- Sauter la configuration de la surveillance avant de passer en production (vous le regretterez)
- Alerter sur l'utilisation de mémoire page cache (c'est supposé remplir la RAM disponible, comportement normal du système)