qdrant-scaling

--- Guide les décisions de mise à l'échelle Qdrant. À utiliser quand quelqu'un demande « combien de nœuds me faut-il », « les données ne tiennent pas sur un nœud », « j'ai besoin de plus de débit », « le cluster est lent », « trop de locataires », « vertical ou horizontal », « comment fragmenter », ou « j'ai besoin d'augmenter la capacité ».

npx skills add https://github.com/qdrant/skills --skill qdrant-scaling

Mise à l'échelle de Qdrant

Commencez par déterminer ce que vous mettez à l'échelle :

  • volume de données
  • débit de requêtes (QPS)
  • latence des requêtes
  • volume de requêtes

Après avoir déterminé l'objectif de mise à l'échelle, nous pouvons choisir une stratégie de mise à l'échelle basée sur les compromis et les hypothèses. Chacun tire vers des stratégies différentes. La mise à l'échelle pour le débit et la latence sont des directions d'optimisation opposées.

Mise à l'échelle du volume de données

Cela devient pertinent lorsque le volume de l'ensemble de données dépasse la capacité d'un seul nœud. Lisez-en plus sur la mise à l'échelle du volume de données dans Mise à l'échelle du volume de données

Mise à l'échelle pour le débit de requêtes

Si votre système doit traiter plus de requêtes parallèles qu'un seul nœud ne peut le faire, vous devez mettre à l'échelle pour le débit de requêtes.

Lisez-en plus sur la mise à l'échelle du débit de requêtes dans Mise à l'échelle pour le débit de requêtes

Mise à l'échelle pour la latence des requêtes

La latence d'une seule requête est déterminée par le composant le plus lent dans le chemin d'exécution de la requête. Elle est parfois corrélée avec le débit, mais pas toujours. Elle pourrait nécessiter des stratégies différentes pour la mise à l'échelle.

Lisez-en plus sur la mise à l'échelle de la latence des requêtes dans Mise à l'échelle pour la latence des requêtes

Mise à l'échelle pour le volume de requêtes

Par volume de requêtes, nous entendons la quantité de résultats qu'une seule requête retourne. Si le volume de requêtes est trop élevé, cela peut causer des problèmes de performance et augmenter la latence.

L'optimisation pour le volume de requêtes peut nécessiter des stratégies spéciales.

Lisez-en plus sur la mise à l'échelle du volume de requêtes dans Mise à l'échelle pour le volume de requêtes