Entraînement VLM MoE

Docs stables : @docs/training/moe-optimization.md Card : @skills/perf-moe-vlm-training/card.yaml

FSDP vs parallélisme 3D

Approche	Force	Meilleure utilisation
FSDP	Chemin le plus simple vers une exécution multimodale fonctionnelle	première mise en route, tuning mémoire-first, limites PP maladroites
Parallélisme 3D	Plafond plus élevé après tuning	modèles stables avec une disposition PP nette et temps pour des balayages plus profonds

Pour les VLM MoE, le flux de travail pratique est généralement :

obtenir la première exécution fiable avec FSDP
stabiliser l'entrée données réelles, recalcul et comportement mémoire
passer au parallélisme 3D uniquement si la marge de débit vaut l'effort supplémentaire

Conclusions arrondies à partir des exécutions VLM récentes

Modèles de classe Qwen3-VL

Les principaux motifs ont été cohérents dans le tracker :

FSDP sur les systèmes de classe GB200 peut déjà atteindre une utilisation saine des hauts chiffres avec une configuration comparativement simple
les exécutions FSDP B200 sont viables, mais plus sensibles au choix du recalcul et aux paramètres de vision gelée
le parallélisme 3D peut récupérer un point de fonctionnement similaire ou meilleur, mais uniquement après tuning du MBS, du recalcul et du chemin vision réel ensemble

Données réelles vs données simulées

Les exécutions VLM avec données simulées ne sont pas des proxies de performance fiables. Dans les expériences, les exécutions simulées sans image paraissaient plus proches de « environ deux fois plus rapide » que « légèrement optimiste » comparées à une entrée multimodale réelle.

Utilisez des charges utiles d'images réelles ou réalistes avant de tirer des conclusions sur le débit VLM.

Exécutions MoE multimodale plus petites

Les expériences multimodales plus petites de style Qwen3.5 renforcent les mêmes leçons :

HybridEP est un bon défaut sur GB200
les graphes CUDA scoped-TE aident une fois que la boucle d'entraînement est stable
un MBS plus grand peut payer, mais uniquement si l'encodeur vision ne devient pas le prochain goulot d'étranglement

Guide de décision

Choisir FSDP quand

vous mettez en route un nouveau VLM pour la première fois
le modèle a des limites d'étapes maladroites entre l'embedding, la vision et le décodeur
la mémoire est plus importante que le débit absolu
vous pourriez geler la pile vision lors d'un tuning axé décodeur

Choisir le parallélisme 3D quand

le modèle est déjà stable sous FSDP
la disposition PP est claire et répétable
vous pouvez balayer le MBS, le recalcul et la portée du graphe CUDA ensemble
l'objectif est le meilleur débit en régime permanent, pas la mise en route la plus facile

Principaux boutons de tuning

Geler la pile vision quand approprié : si le travail est axé décodeur, geler le côté vision donne souvent un petit gain de débit réel et réduit la pression mémoire.
Balayer le MBS agressivement : les VLM sont plus sensibles au MBS que les exécutions MoE texte uniquement car le chemin vision change l'équilibre calcul-surcharge.
Préférer le recalcul sélectif une fois que le modèle rentre : le recalcul complet est un outil de mise en route utile, mais le recalcul sélectif est généralement l'état régime permanent meilleur.
Adapter la portée du graphe CUDA à la charge de travail : attn moe_router moe_preprocess est le défaut MoE plus sûr, tandis que des portées plus étroites peuvent toujours être utiles pour des expériences contrôlées.
Utiliser ETP uniquement quand EP seul est insuffisant : cela peut déverrouiller une disposition, mais cela introduit aussi plus de communication et plus de surface de tuning.

Familles de config représentatives

Chemin FSDP-first GB200

TP=1  CP=1  PP=1
EP dimensionné à la topologie d'expert, souvent large
Dispatcher : HybridEP sur systèmes de classe GB200
Recalcul : commencer complet, puis relâcher vers recalcul sélectif

Chemin parallélisme 3D GB200

TP=1  CP=1  PP=1 ou PP modeste
EP et ETP dimensionnés à la topologie d'expert
Dispatcher : HybridEP
Graphe CUDA : commencer étroit, puis élargir uniquement après que le chemin données réelles soit stable

Compatibilité

Fonctionnalité	FSDP	Parallélisme 3D
HybridEP sur GB200	bon défaut	bon défaut une fois la topologie stable
Graphes CUDA	utile après mise en route	utile, mais plus sensible à la portée
Geler vision	ajustement naturel	possible, mais moins souvent utilisé comme chemin perf principal
Recalcul sélectif	recommandé	recommandé

Pièges

Les données multimodales simulées sont trompeuses : elles peuvent faire paraître le décodeur bien plus sain que le chemin VLM bout-en-bout réel.
L'encodeur vision peut dominer de manière inattendue : profilez l'encodeur, le projecteur et le décodeur séparément avant d'attribuer tout au dispatcher.
Ne comparez pas les exécutions FSDP et parallélisme 3D avec un travail effectif différent : normalisez par tokens utiles et forme de charge de travail, pas uniquement par temps d'étape.
ETP n'est pas gratuit : utilisez-le comme outil d'ajustement ou de topologie, pas comme défaut.
Les choix de recalcul et de graphe CUDA sont couplés : le paramètre qui fait rentrer le modèle n'est souvent pas celui qui donne la meilleure vitesse en régime permanent.