Entraînement MoE VLM
Docs stables : @docs/training/moe-optimization.md Card : @skills/nemo-mbridge-perf-moe-vlm-training/card.yaml
FSDP vs parallélisme 3D
| Approche | Force | Meilleur pour |
|---|---|---|
| FSDP | Chemin le plus simple vers une exécution multimodale fonctionnelle | première mise en route, tuning memory-first, limites PP maladroites |
| Parallélisme 3D | Plafond plus élevé après tuning | modèles stables avec une architecture PP propre et temps pour des sweeps plus approfondis |
Pour les VLM MoE, le workflow pratique est généralement :
- obtenir la première exécution fiable avec FSDP
- stabiliser l'entrée de données réelles, le recompute et le comportement mémoire
- passer au parallélisme 3D seulement si la marge de débit justifie le travail supplémentaire
Conclusions Arrondies Des Récentes Exécutions VLM
Modèles de classe Qwen3-VL
Les principaux schémas étaient cohérents dans le tracker :
- FSDP sur systèmes GB200-class peut déjà atteindre une utilisation saine en haut des teens avec une configuration comparativement simple
- les exécutions FSDP B200 sont viables, mais plus sensibles au choix du recompute et aux paramètres de vision figés
- le parallélisme 3D peut récupérer un point de fonctionnement similaire ou meilleur, mais seulement après tuning de MBS, recompute et du chemin vision réel ensemble
Données réelles vs données simulées
Les exécutions VLM sur données simulées ne sont pas des proxys de performance fiables. Dans les expériences, les exécutions simulées sans image ressemblaient davantage à « à peu près deux fois plus rapides » qu'à « légèrement optimiste » lorsqu'elles étaient comparées à une entrée multimodale réelle.
Utilisez des payloads d'image réels ou réalistes avant de tirer une conclusion sur le débit VLM.
Exécutions MoE multimodales plus petites
Les expériences multimodales de style Qwen3.5 plus petites renforcent les mêmes leçons :
- HybridEP est un bon défaut sur GB200
- les graphes CUDA scoped-TE aident une fois que la boucle d'entraînement est stable
- une MBS plus grande peut valoir le coup, mais seulement si l'encodeur vision ne devient pas le prochain goulot d'étranglement
Guide de Décision
Choisir FSDP quand
- vous mettez en place un nouveau VLM pour la première fois
- le modèle a des limites d'étape maladroites entre embedding, vision et decoder
- la mémoire compte plus que le débit absolu
- vous pouvez geler la pile vision pendant le tuning centré sur le decoder
Choisir le parallélisme 3D quand
- le modèle est déjà stable sous FSDP
- l'architecture PP est claire et reproductible
- vous pouvez faire des sweeps de MBS, recompute et CUDA-graph scope ensemble
- l'objectif est le meilleur débit en régime permanent, pas la mise en route la plus facile
Boutons de Tuning Clés
-
Geler la pile vision quand approprié : si le travail est centré sur le decoder, geler le côté vision donne souvent un petit gain de débit réel et réduit la pression mémoire.
-
Faire des sweeps de MBS agressifs : les VLM sont plus sensibles à MBS que les exécutions MoE texte uniquement car le chemin vision change l'équilibre calcul-surcharge.
-
Préférer le recompute sélectif une fois que le modèle tient : le recompute complet est un outil de mise en route utile, mais le recompute sélectif est généralement le meilleur état régime permanent.
-
Faire correspondre le scope CUDA-graph à la charge de travail :
attn moe_router moe_preprocessest le défaut MoE plus sûr, tandis que des scopes plus étroits peuvent toujours être utiles pour les expériences contrôlées. -
Utiliser ETP seulement quand EP seul est insuffisant : cela peut déverrouiller une architecture, mais cela introduit aussi plus de communication et plus de surface de tuning.
Familles de Config Représentatives
Chemin FSDP-first GB200
TP=1 CP=1 PP=1
EP dimensionné à la topologie d'expert, souvent grand
Dispatcher : HybridEP sur systèmes GB200-class
Recompute : commencer avec complet, puis relâcher vers recompute sélectif
Chemin parallélisme 3D GB200
TP=1 CP=1 PP=1 ou PP modeste
EP et ETP dimensionnés à la topologie d'expert
Dispatcher : HybridEP
CUDA Graph : commencer étroit, puis élargir seulement après que le chemin données réelles soit stable
Compatibilité
| Fonctionnalité | FSDP | Parallélisme 3D |
|---|---|---|
| HybridEP sur GB200 | bon défaut | bon défaut une fois la topologie stable |
| CUDA graphs | utile après mise en route | utile, mais plus sensible au scope |
| Geler vision | ajustement naturel | possible, mais moins souvent utilisé comme le chemin perf vedette |
| Recompute sélectif | recommandé | recommandé |
Pièges
-
Les données multimodales simulées sont trompeuses : elles peuvent faire ressembler le decoder beaucoup plus sain que le chemin VLM end-to-end réel.
-
L'encodeur vision peut dominer de manière inattendue : profilez l'encodeur, le projecteur et le decoder séparément avant d'attribuer tout au dispatcher.
-
Ne pas comparer les exécutions FSDP et parallélisme 3D avec un travail effectif différent : normalisez par tokens utiles et forme de charge de travail, pas seulement par temps d'étape.
-
ETP n'est pas gratuit : utilisez-le comme outil d'ajustement ou de topologie, pas comme défaut.
-
Les choix de recompute et CUDA-graph sont couplés : le paramètre qui permet au modèle de tenir n'est souvent pas le paramètre qui donne la meilleure vitesse en régime permanent.