perf-moe-vlm-training

Par nvidia · skills

Guide pratique pour l'entraînement de VLM MoE dans Megatron Bridge. Compare les approches FSDP et parallélisme 3D, à partir des enseignements tirés de Qwen3-VL, Qwen3-Next et d'autres expériences multimodales.

npx skills add https://github.com/nvidia/skills --skill perf-moe-vlm-training

Entraînement VLM MoE

Docs stables : @docs/training/moe-optimization.md Card : @skills/perf-moe-vlm-training/card.yaml

FSDP vs parallélisme 3D

Approche Force Meilleure utilisation
FSDP Chemin le plus simple vers une exécution multimodale fonctionnelle première mise en route, tuning mémoire-first, limites PP maladroites
Parallélisme 3D Plafond plus élevé après tuning modèles stables avec une disposition PP nette et temps pour des balayages plus profonds

Pour les VLM MoE, le flux de travail pratique est généralement :

  1. obtenir la première exécution fiable avec FSDP
  2. stabiliser l'entrée données réelles, recalcul et comportement mémoire
  3. passer au parallélisme 3D uniquement si la marge de débit vaut l'effort supplémentaire

Conclusions arrondies à partir des exécutions VLM récentes

Modèles de classe Qwen3-VL

Les principaux motifs ont été cohérents dans le tracker :

  • FSDP sur les systèmes de classe GB200 peut déjà atteindre une utilisation saine des hauts chiffres avec une configuration comparativement simple
  • les exécutions FSDP B200 sont viables, mais plus sensibles au choix du recalcul et aux paramètres de vision gelée
  • le parallélisme 3D peut récupérer un point de fonctionnement similaire ou meilleur, mais uniquement après tuning du MBS, du recalcul et du chemin vision réel ensemble

Données réelles vs données simulées

Les exécutions VLM avec données simulées ne sont pas des proxies de performance fiables. Dans les expériences, les exécutions simulées sans image paraissaient plus proches de « environ deux fois plus rapide » que « légèrement optimiste » comparées à une entrée multimodale réelle.

Utilisez des charges utiles d'images réelles ou réalistes avant de tirer des conclusions sur le débit VLM.

Exécutions MoE multimodale plus petites

Les expériences multimodales plus petites de style Qwen3.5 renforcent les mêmes leçons :

  • HybridEP est un bon défaut sur GB200
  • les graphes CUDA scoped-TE aident une fois que la boucle d'entraînement est stable
  • un MBS plus grand peut payer, mais uniquement si l'encodeur vision ne devient pas le prochain goulot d'étranglement

Guide de décision

Choisir FSDP quand

  • vous mettez en route un nouveau VLM pour la première fois
  • le modèle a des limites d'étapes maladroites entre l'embedding, la vision et le décodeur
  • la mémoire est plus importante que le débit absolu
  • vous pourriez geler la pile vision lors d'un tuning axé décodeur

Choisir le parallélisme 3D quand

  • le modèle est déjà stable sous FSDP
  • la disposition PP est claire et répétable
  • vous pouvez balayer le MBS, le recalcul et la portée du graphe CUDA ensemble
  • l'objectif est le meilleur débit en régime permanent, pas la mise en route la plus facile

Principaux boutons de tuning

  1. Geler la pile vision quand approprié : si le travail est axé décodeur, geler le côté vision donne souvent un petit gain de débit réel et réduit la pression mémoire.

  2. Balayer le MBS agressivement : les VLM sont plus sensibles au MBS que les exécutions MoE texte uniquement car le chemin vision change l'équilibre calcul-surcharge.

  3. Préférer le recalcul sélectif une fois que le modèle rentre : le recalcul complet est un outil de mise en route utile, mais le recalcul sélectif est généralement l'état régime permanent meilleur.

  4. Adapter la portée du graphe CUDA à la charge de travail : attn moe_router moe_preprocess est le défaut MoE plus sûr, tandis que des portées plus étroites peuvent toujours être utiles pour des expériences contrôlées.

  5. Utiliser ETP uniquement quand EP seul est insuffisant : cela peut déverrouiller une disposition, mais cela introduit aussi plus de communication et plus de surface de tuning.

Familles de config représentatives

Chemin FSDP-first GB200

TP=1  CP=1  PP=1
EP dimensionné à la topologie d'expert, souvent large
Dispatcher : HybridEP sur systèmes de classe GB200
Recalcul : commencer complet, puis relâcher vers recalcul sélectif

Chemin parallélisme 3D GB200

TP=1  CP=1  PP=1 ou PP modeste
EP et ETP dimensionnés à la topologie d'expert
Dispatcher : HybridEP
Graphe CUDA : commencer étroit, puis élargir uniquement après que le chemin données réelles soit stable

Compatibilité

Fonctionnalité FSDP Parallélisme 3D
HybridEP sur GB200 bon défaut bon défaut une fois la topologie stable
Graphes CUDA utile après mise en route utile, mais plus sensible à la portée
Geler vision ajustement naturel possible, mais moins souvent utilisé comme chemin perf principal
Recalcul sélectif recommandé recommandé

Pièges

  1. Les données multimodales simulées sont trompeuses : elles peuvent faire paraître le décodeur bien plus sain que le chemin VLM bout-en-bout réel.

  2. L'encodeur vision peut dominer de manière inattendue : profilez l'encodeur, le projecteur et le décodeur séparément avant d'attribuer tout au dispatcher.

  3. Ne comparez pas les exécutions FSDP et parallélisme 3D avec un travail effectif différent : normalisez par tokens utiles et forme de charge de travail, pas uniquement par temps d'étape.

  4. ETP n'est pas gratuit : utilisez-le comme outil d'ajustement ou de topologie, pas comme défaut.

  5. Les choix de recalcul et de graphe CUDA sont couplés : le paramètre qui fait rentrer le modèle n'est souvent pas celui qui donne la meilleure vitesse en régime permanent.

Skills similaires