Entraînement MoE VLM

Docs stables : @docs/training/moe-optimization.md Card : @skills/nemo-mbridge-perf-moe-vlm-training/card.yaml

FSDP vs parallélisme 3D

Approche	Force	Meilleur pour
FSDP	Chemin le plus simple vers une exécution multimodale fonctionnelle	première mise en route, tuning memory-first, limites PP maladroites
Parallélisme 3D	Plafond plus élevé après tuning	modèles stables avec une architecture PP propre et temps pour des sweeps plus approfondis

Pour les VLM MoE, le workflow pratique est généralement :

obtenir la première exécution fiable avec FSDP
stabiliser l'entrée de données réelles, le recompute et le comportement mémoire
passer au parallélisme 3D seulement si la marge de débit justifie le travail supplémentaire

Conclusions Arrondies Des Récentes Exécutions VLM

Modèles de classe Qwen3-VL

Les principaux schémas étaient cohérents dans le tracker :

FSDP sur systèmes GB200-class peut déjà atteindre une utilisation saine en haut des teens avec une configuration comparativement simple
les exécutions FSDP B200 sont viables, mais plus sensibles au choix du recompute et aux paramètres de vision figés
le parallélisme 3D peut récupérer un point de fonctionnement similaire ou meilleur, mais seulement après tuning de MBS, recompute et du chemin vision réel ensemble

Données réelles vs données simulées

Les exécutions VLM sur données simulées ne sont pas des proxys de performance fiables. Dans les expériences, les exécutions simulées sans image ressemblaient davantage à « à peu près deux fois plus rapides » qu'à « légèrement optimiste » lorsqu'elles étaient comparées à une entrée multimodale réelle.

Utilisez des payloads d'image réels ou réalistes avant de tirer une conclusion sur le débit VLM.

Exécutions MoE multimodales plus petites

Les expériences multimodales de style Qwen3.5 plus petites renforcent les mêmes leçons :

HybridEP est un bon défaut sur GB200
les graphes CUDA scoped-TE aident une fois que la boucle d'entraînement est stable
une MBS plus grande peut valoir le coup, mais seulement si l'encodeur vision ne devient pas le prochain goulot d'étranglement

Guide de Décision

Choisir FSDP quand

vous mettez en place un nouveau VLM pour la première fois
le modèle a des limites d'étape maladroites entre embedding, vision et decoder
la mémoire compte plus que le débit absolu
vous pouvez geler la pile vision pendant le tuning centré sur le decoder

Choisir le parallélisme 3D quand

le modèle est déjà stable sous FSDP
l'architecture PP est claire et reproductible
vous pouvez faire des sweeps de MBS, recompute et CUDA-graph scope ensemble
l'objectif est le meilleur débit en régime permanent, pas la mise en route la plus facile

Boutons de Tuning Clés

Geler la pile vision quand approprié : si le travail est centré sur le decoder, geler le côté vision donne souvent un petit gain de débit réel et réduit la pression mémoire.
Faire des sweeps de MBS agressifs : les VLM sont plus sensibles à MBS que les exécutions MoE texte uniquement car le chemin vision change l'équilibre calcul-surcharge.
Préférer le recompute sélectif une fois que le modèle tient : le recompute complet est un outil de mise en route utile, mais le recompute sélectif est généralement le meilleur état régime permanent.
Faire correspondre le scope CUDA-graph à la charge de travail : attn moe_router moe_preprocess est le défaut MoE plus sûr, tandis que des scopes plus étroits peuvent toujours être utiles pour les expériences contrôlées.
Utiliser ETP seulement quand EP seul est insuffisant : cela peut déverrouiller une architecture, mais cela introduit aussi plus de communication et plus de surface de tuning.

Familles de Config Représentatives

Chemin FSDP-first GB200

TP=1  CP=1  PP=1
EP dimensionné à la topologie d'expert, souvent grand
Dispatcher : HybridEP sur systèmes GB200-class
Recompute : commencer avec complet, puis relâcher vers recompute sélectif

Chemin parallélisme 3D GB200

TP=1  CP=1  PP=1 ou PP modeste
EP et ETP dimensionnés à la topologie d'expert
Dispatcher : HybridEP
CUDA Graph : commencer étroit, puis élargir seulement après que le chemin données réelles soit stable

Compatibilité

Fonctionnalité	FSDP	Parallélisme 3D
HybridEP sur GB200	bon défaut	bon défaut une fois la topologie stable
CUDA graphs	utile après mise en route	utile, mais plus sensible au scope
Geler vision	ajustement naturel	possible, mais moins souvent utilisé comme le chemin perf vedette
Recompute sélectif	recommandé	recommandé

Pièges

Les données multimodales simulées sont trompeuses : elles peuvent faire ressembler le decoder beaucoup plus sain que le chemin VLM end-to-end réel.
L'encodeur vision peut dominer de manière inattendue : profilez l'encodeur, le projecteur et le decoder séparément avant d'attribuer tout au dispatcher.
Ne pas comparer les exécutions FSDP et parallélisme 3D avec un travail effectif différent : normalisez par tokens utiles et forme de charge de travail, pas seulement par temps d'étape.
ETP n'est pas gratuit : utilisez-le comme outil d'ajustement ou de topologie, pas comme défaut.
Les choix de recompute et CUDA-graph sont couplés : le paramètre qui permet au modèle de tenir n'est souvent pas le paramètre qui donne la meilleure vitesse en régime permanent.