Guide de configuration de la surveillance Qdrant

Commencez par faire fonctionner le scraping Prometheus, puis les sondes de santé, puis les alertes. Ne sautez pas la configuration de la surveillance avant de passer en production.

Métriques Prometheus

À utiliser quand : vous configurez la collecte de métriques pour la première fois ou ajoutez un nouveau déploiement.

Métriques de nœud à l'endpoint /metrics Documentation de surveillance
Métriques de cluster à /sys_metrics (Qdrant Cloud uniquement)
Personnalisation du préfixe via le paramètre de config service.metrics_prefix ou la variable d'env QDRANT__SERVICE__METRICS_PREFIX
Exemple de configuration auto-hébergée avec Prometheus + Grafana dépôt prometheus-monitoring

Scraping Hybrid Cloud

À utiliser quand : vous exécutez Qdrant Hybrid Cloud et avez besoin de visibilité au niveau du cluster.

Ne scrapez pas simplement les nœuds Qdrant. Dans Hybrid Cloud, vous gérez le plan de données Kubernetes. Vous devez aussi scraper les pods cluster-exporter et operator pour une visibilité complète du cluster et l'état de l'opérateur.

Tutoriel de configuration Prometheus Hybrid Cloud Hybrid Cloud Prometheus
Dashboards Grafana officiels dépôt dashboard Grafana

Sondes de vivacité et de disponibilité

À utiliser quand : vous configurez les vérifications de santé Kubernetes.

Utilisez /healthz, /livez, /readyz pour l'état basique, la vivacité et la disponibilité Points de terminaison de santé Kubernetes

Alertes

À utiliser quand : vous configurez les alertes pour les déploiements en production ou Hybrid Cloud.

Hybrid Cloud fournit ~11 alertes Prometheus pré-configurées en standard Surveillance du cluster Cloud
Utilisez AlertmanagerConfig pour router les alertes vers Slack, PagerDuty ou d'autres cibles selon les labels
Au minimum, alertez sur : erreurs d'optimiseur, nœud non prêt, facteur de réplication en dessous de la cible, utilisation du disque >80%

Centralisation des logs et audit logging

À utiliser quand : la conformité d'entreprise nécessite des logs centralisés ou des pistes d'audit.

Activez le format JSON pour une analyse structurée : définissez logger.format à json dans la config Configuration
Utilisez FluentD/OpenSearch pour l'agrégation des logs
Les audit logs (v1.17+) s'écrivent dans le système de fichiers local (/qdrant/storage/audit/), pas sur stdout. Montez un Persistent Volume et déployez un conteneur sidecar pour envoyer ces fichiers vers stdout afin que les DaemonSets puissent les récupérer. Audit logging

À NE PAS faire

Scraper /sys_metrics sur une installation auto-hébergée (disponible uniquement sur Qdrant Cloud)
Scraper uniquement les nœuds Qdrant dans Hybrid Cloud (vous manqueriez les métriques cluster-exporter et operator)
Sauter la configuration de la surveillance avant de passer en production (vous le regretterez)
Alerter sur l'utilisation de mémoire page cache (c'est supposé remplir la RAM disponible, comportement normal du système)

qdrant-monitoring-setup