Training & Fine-tuning
Entrainement et fine-tuning de modeles, MLOps, recherche scientifique.
| # | Skill | Source | Description | Δ | |
|---|---|---|---|---|---|
| 1 | cudaq-guide | nvidia/skills | Guider l'utilisateur dans CUDA-Q : installation, simulation GPU et accès QPU. | 1 960 | 8 |
| 2 | mlm-bridge-training | nvidia/skills | Comparer et valider les pertes entre Megatron-LM et Bridge sur GPU. | 1 960 | 8 |
| 3 | parity-testing | nvidia/skills | Vérifier la parité des poids et des passes avant entre modèles HF et Megatron. | 1 960 | 8 |
| 4 | perf-activation-recompute | nvidia/skills | Optimiser la mémoire GPU en recomputant sélectivement les activations pendant la rétropropagation. | 1 960 | 8 |
| 5 | perf-cpu-offloading | nvidia/skills | Décharger activations ou états d'optimiseur du GPU vers le CPU pour économiser de la mémoire. | 1 960 | 8 |
| 6 | perf-cuda-graphs | nvidia/skills | Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles. | 1 960 | 8 |
| 7 | perf-expert-parallel-overlap | nvidia/skills | Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication. | 1 960 | 8 |
| 8 | perf-hybrid-context-parallel | nvidia/skills | Configurer le parallélisme de contexte hybride hiérarchique pour l'entraînement distribué de LLMs. | 1 960 | 8 |
| 9 | perf-megatron-fsdp | nvidia/skills | Configurer et valider l'entraînement distribué avec Megatron FSDP dans Bridge. | 1 960 | 8 |
| 10 | perf-memory-tuning | nvidia/skills | Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles. | 1 960 | 8 |
| 11 | perf-moe-comm-overlap | nvidia/skills | Activer et configurer le chevauchement des communications MoE en parallélisme expert. | 1 960 | 8 |
| 12 | perf-moe-dispatcher-selection | nvidia/skills | Sélectionner le dispatcher MoE optimal selon le matériel, le modèle et le degré EP. | 1 960 | 8 |
| 13 | perf-moe-hardware-configs | nvidia/skills | Configurer les paramètres matériels optimaux pour entraîner des modèles MoE sur GPU. | 1 960 | 8 |
| 14 | perf-moe-long-context | nvidia/skills | Optimiser l'entraînement long-contexte des modèles MoE avec parallélisme et recompute. | 1 960 | 8 |
| 15 | perf-moe-optimization-workflow | nvidia/skills | Optimiser l'entraînement de modèles MoE en gérant mémoire, communication et calcul. | 1 960 | 8 |
| 16 | perf-moe-vlm-training | nvidia/skills | Optimiser l'entraînement de VLM MoE avec FSDP ou parallélisme 3D. | 1 960 | 8 |
| 17 | perf-parallelism-strategies | nvidia/skills | Sélectionner la stratégie de parallélisme optimale selon la taille du modèle et le matériel. | 1 960 | 8 |
| 18 | perf-sequence-packing | nvidia/skills | Configurer le packing de séquences pour le finetuning LLM et VLM optimisé. | 1 960 | 8 |
| 19 | perf-tp-dp-comm-overlap | nvidia/skills | Configurer le chevauchement des communications TP/DP/PP pour optimiser l'entraînement distribué. | 1 960 | 8 |
| 20 | recipe-recommender | nvidia/skills | Indexer les recettes d'entraînement et recommander la configuration optimale pour LLM. | 1 960 | 8 |
| 21 | resiliency | nvidia/skills | Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués. | 1 960 | 8 |
| 22 | accessing-mlflow | nvidia/skills | Interroger et comparer des runs MLflow via langage naturel et MCP. | 1 960 | 8 |
| 23 | evaluation | nvidia/skills | Générer et exécuter des configurations YAML d'évaluation de modèles LLM via NeMo Evaluator. | 1 960 | 8 |
| 24 | ptq | nvidia/skills | Quantifier un modèle pré-entraîné en checkpoint optimisé via ModelOpt PTQ. | 1 960 | 8 |
| 25 | ad-model-onboard | nvidia/skills | Automatiser l'intégration de modèles HuggingFace dans AutoDeploy avec tests et rapport. | 1 960 | 8 |
| 26 | exec-local-compile | nvidia/skills | Compiler TensorRT-LLM depuis les sources sur un nœud de calcul avec GPU. | 1 960 | 8 |
| 27 | kernel-triton-writing | nvidia/skills | Écrire des kernels Triton corrects, performants et précis pour agents IA. | 1 960 | 8 |
| 28 | perf-host-optimization | nvidia/skills | Détecter et optimiser automatiquement les goulots d'étranglement CPU dans TensorRT-LLM. | 1 960 | 8 |
| 29 | nel-assistant | nvidia/skills | Générer et exécuter des configurations YAML d'évaluation de modèles via NeMo Evaluator. | 1 960 | 8 |
| 30 | add-benchmark | nvidia/skills | Intégrer un benchmark natif ou externe dans le framework NeMo-Gym. | 1 960 | 8 |
| 31 | ad-add-fusion-transformation | nvidia/skills | Ajouter, étendre ou auditer un pass de fusion dans AutoDeploy de TensorRT-LLM. | 1 960 | 8 |
| 32 | kernel-cute-writing | nvidia/skills | Développer des kernels GPU optimisés en Python via JIT compilation CUDA avec CUTLASS. | 1 960 | 8 |
| 33 | kernel-tileir-optimization | nvidia/skills | Optimiser des kernels Triton existants pour le backend TileIR de Blackwell GPUs. | 1 960 | 8 |
| 34 | perf-optimization | nvidia/skills | Coordonner des spécialistes GPU pour optimiser et valider les performances de kernels. | 1 960 | 8 |
| 35 | perf-torch-cuda-graphs | nvidia/skills | Optimiser les workloads PyTorch en capturant et rejouant des séquences GPU via CUDA Graphs. | 1 960 | 8 |
| 36 | perf-torch-sync-free | nvidia/skills | Écrire du code PyTorch asynchrone en éliminant les synchronisations CPU-GPU inutiles. | 1 960 | 8 |
| 37 | cuopt-installation-api-python | nvidia/skills | Installer cuOpt via pip, conda ou Docker pour optimiser des routes en Python. | 1 960 | 8 |
| 38 | cuopt-lp-milp-api-python | nvidia/skills | Modéliser et résoudre des programmes linéaires LP/MILP avec le solveur GPU cuOpt. | 1 960 | 8 |
| 39 | cuopt-qp-api-cli | nvidia/skills | Résoudre des problèmes d'optimisation quadratique via l'interface CLI cuOpt. | 1 960 | 8 |
| 40 | cuopt-qp-api-python | nvidia/skills | Résoudre des problèmes d'optimisation quadratique en Python avec cuOpt QP. | 1 960 | 8 |
| 41 | cuopt-user-rules | nvidia/skills | Optimiser des problèmes de routage et logistique avec cuOpt via des échanges guidés. | 1 960 | 8 |
| 42 | adding-cutile-kernel | nvidia/skills | Intégrer un nouvel opérateur cuTile dans TileGym selon un workflow structuré étape par étape. | 1 960 | 8 |
| 43 | cutile-python | nvidia/skills | Écrire, déboguer et optimiser des kernels GPU haute performance avec cuTile Python. | 1 960 | 8 |
| 44 | converting-cutile-to-triton | nvidia/skills | Convertir des kernels cuTile en kernels Triton via un workflow structuré en cinq phases. | 1 960 | 8 |
| 45 | improve-cutile-kernel-perf | nvidia/skills | Optimiser itérativement les performances d'un kernel cuTile via profilage et benchmarking systématiques. | 1 960 | 8 |
| 46 | monkey-patch-kernels-to-transformers | nvidia/skills | Intégrer des kernels TileGym dans Transformers via monkey-patching pour optimiser les LLM. | 1 960 | 8 |
| 47 | cuopt-numerical-optimization-api-python | nvidia/skills | Modéliser et résoudre des problèmes LP, MILP et QP avec cuOpt GPU d'NVIDIA. | 1 960 | 8 |
| 48 | cutile-autotuning | nvidia/skills | Autotuner des kernels CuTile via recherche exhaustive avec cache et lancement optimisé. | 1 960 | 8 |
| 49 | cuopt-install | nvidia/skills | Installer cuOpt via pip, conda ou Docker pour Python, C ou REST. | 1 960 | 8 |
| 50 | deepstream-import-vision-model | nvidia/skills | Importer et benchmarker des modèles de détection d'objets dans DeepStream via TensorRT. | 1 960 | 8 |
À propos de cette sélection
Quand un modèle de base commence à produire des réponses trop génériques pour rester crédibles en production, le travail sérieux commence. Cette section s'adresse aux ingénieurs ML et aux équipes qui adaptent, évaluent et débogent des modèles en conditions réelles : affiner un LLM sur un corpus métier avec Hugging Face, tracer des expériences d'entraînement bout en bout, ou remonter un bug de compilation dans le runtime PyTorch avant qu'il bloque un pipeline entier.
Les skills training & fine-tuning couvrent un spectre plus large que le seul fine-tuning supervisé. On y trouve des outils d'annotation, de benchmarking, de kernels custom côté NVIDIA, et quelques skills orientés recherche reproductible. L'outillage reste majoritairement Python, avec une densité forte autour des frameworks majeurs. Certains cas avancés demandent encore de composer plusieurs skills ensemble, mais la base est solide.