Entraînement VLM MoE
Docs stables : @docs/training/moe-optimization.md Card : @skills/perf-moe-vlm-training/card.yaml
FSDP vs parallélisme 3D
| Approche | Force | Meilleure utilisation |
|---|---|---|
| FSDP | Chemin le plus simple vers une exécution multimodale fonctionnelle | première mise en route, tuning mémoire-first, limites PP maladroites |
| Parallélisme 3D | Plafond plus élevé après tuning | modèles stables avec une disposition PP nette et temps pour des balayages plus profonds |
Pour les VLM MoE, le flux de travail pratique est généralement :
- obtenir la première exécution fiable avec FSDP
- stabiliser l'entrée données réelles, recalcul et comportement mémoire
- passer au parallélisme 3D uniquement si la marge de débit vaut l'effort supplémentaire
Conclusions arrondies à partir des exécutions VLM récentes
Modèles de classe Qwen3-VL
Les principaux motifs ont été cohérents dans le tracker :
- FSDP sur les systèmes de classe GB200 peut déjà atteindre une utilisation saine des hauts chiffres avec une configuration comparativement simple
- les exécutions FSDP B200 sont viables, mais plus sensibles au choix du recalcul et aux paramètres de vision gelée
- le parallélisme 3D peut récupérer un point de fonctionnement similaire ou meilleur, mais uniquement après tuning du MBS, du recalcul et du chemin vision réel ensemble
Données réelles vs données simulées
Les exécutions VLM avec données simulées ne sont pas des proxies de performance fiables. Dans les expériences, les exécutions simulées sans image paraissaient plus proches de « environ deux fois plus rapide » que « légèrement optimiste » comparées à une entrée multimodale réelle.
Utilisez des charges utiles d'images réelles ou réalistes avant de tirer des conclusions sur le débit VLM.
Exécutions MoE multimodale plus petites
Les expériences multimodales plus petites de style Qwen3.5 renforcent les mêmes leçons :
- HybridEP est un bon défaut sur GB200
- les graphes CUDA scoped-TE aident une fois que la boucle d'entraînement est stable
- un MBS plus grand peut payer, mais uniquement si l'encodeur vision ne devient pas le prochain goulot d'étranglement
Guide de décision
Choisir FSDP quand
- vous mettez en route un nouveau VLM pour la première fois
- le modèle a des limites d'étapes maladroites entre l'embedding, la vision et le décodeur
- la mémoire est plus importante que le débit absolu
- vous pourriez geler la pile vision lors d'un tuning axé décodeur
Choisir le parallélisme 3D quand
- le modèle est déjà stable sous FSDP
- la disposition PP est claire et répétable
- vous pouvez balayer le MBS, le recalcul et la portée du graphe CUDA ensemble
- l'objectif est le meilleur débit en régime permanent, pas la mise en route la plus facile
Principaux boutons de tuning
-
Geler la pile vision quand approprié : si le travail est axé décodeur, geler le côté vision donne souvent un petit gain de débit réel et réduit la pression mémoire.
-
Balayer le MBS agressivement : les VLM sont plus sensibles au MBS que les exécutions MoE texte uniquement car le chemin vision change l'équilibre calcul-surcharge.
-
Préférer le recalcul sélectif une fois que le modèle rentre : le recalcul complet est un outil de mise en route utile, mais le recalcul sélectif est généralement l'état régime permanent meilleur.
-
Adapter la portée du graphe CUDA à la charge de travail :
attn moe_router moe_preprocessest le défaut MoE plus sûr, tandis que des portées plus étroites peuvent toujours être utiles pour des expériences contrôlées. -
Utiliser ETP uniquement quand EP seul est insuffisant : cela peut déverrouiller une disposition, mais cela introduit aussi plus de communication et plus de surface de tuning.
Familles de config représentatives
Chemin FSDP-first GB200
TP=1 CP=1 PP=1
EP dimensionné à la topologie d'expert, souvent large
Dispatcher : HybridEP sur systèmes de classe GB200
Recalcul : commencer complet, puis relâcher vers recalcul sélectif
Chemin parallélisme 3D GB200
TP=1 CP=1 PP=1 ou PP modeste
EP et ETP dimensionnés à la topologie d'expert
Dispatcher : HybridEP
Graphe CUDA : commencer étroit, puis élargir uniquement après que le chemin données réelles soit stable
Compatibilité
| Fonctionnalité | FSDP | Parallélisme 3D |
|---|---|---|
| HybridEP sur GB200 | bon défaut | bon défaut une fois la topologie stable |
| Graphes CUDA | utile après mise en route | utile, mais plus sensible à la portée |
| Geler vision | ajustement naturel | possible, mais moins souvent utilisé comme chemin perf principal |
| Recalcul sélectif | recommandé | recommandé |
Pièges
-
Les données multimodales simulées sont trompeuses : elles peuvent faire paraître le décodeur bien plus sain que le chemin VLM bout-en-bout réel.
-
L'encodeur vision peut dominer de manière inattendue : profilez l'encodeur, le projecteur et le décodeur séparément avant d'attribuer tout au dispatcher.
-
Ne comparez pas les exécutions FSDP et parallélisme 3D avec un travail effectif différent : normalisez par tokens utiles et forme de charge de travail, pas uniquement par temps d'étape.
-
ETP n'est pas gratuit : utilisez-le comme outil d'ajustement ou de topologie, pas comme défaut.
-
Les choix de recalcul et de graphe CUDA sont couplés : le paramètre qui fait rentrer le modèle n'est souvent pas celui qui donne la meilleure vitesse en régime permanent.