Training & Fine-tuning

Entrainement et fine-tuning de modeles, MLOps, recherche scientifique.

324 skills

#	Skill	Source	Description		Δ
1	cudaq-guide	nvidia/skills	Guider l'utilisateur dans CUDA-Q : installation, simulation GPU et accès QPU.	1 970	537
2	mlm-bridge-training	nvidia/skills	Comparer et valider les pertes entre Megatron-LM et Bridge sur GPU.	1 970	537
3	parity-testing	nvidia/skills	Vérifier la parité des poids et des passes avant entre modèles HF et Megatron.	1 970	537
4	perf-activation-recompute	nvidia/skills	Optimiser la mémoire GPU en recomputant sélectivement les activations pendant la rétropropagation.	1 970	537
5	perf-cpu-offloading	nvidia/skills	Décharger activations ou états d'optimiseur du GPU vers le CPU pour économiser de la mémoire.	1 970	537
6	perf-cuda-graphs	nvidia/skills	Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles.	1 970	537
7	perf-expert-parallel-overlap	nvidia/skills	Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication.	1 970	537
8	perf-hybrid-context-parallel	nvidia/skills	Configurer le parallélisme de contexte hybride hiérarchique pour l'entraînement distribué de LLMs.	1 970	537
9	perf-megatron-fsdp	nvidia/skills	Configurer et valider l'entraînement distribué avec Megatron FSDP dans Bridge.	1 970	537
10	perf-memory-tuning	nvidia/skills	Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles.	1 970	537
11	perf-moe-comm-overlap	nvidia/skills	Activer et configurer le chevauchement des communications MoE en parallélisme expert.	1 970	537
12	perf-moe-dispatcher-selection	nvidia/skills	Sélectionner le dispatcher MoE optimal selon le matériel, le modèle et le degré EP.	1 970	537
13	perf-moe-hardware-configs	nvidia/skills	Configurer les paramètres matériels optimaux pour entraîner des modèles MoE sur GPU.	1 970	537
14	perf-moe-long-context	nvidia/skills	Optimiser l'entraînement long-contexte des modèles MoE avec parallélisme et recompute.	1 970	537
15	perf-moe-optimization-workflow	nvidia/skills	Optimiser l'entraînement de modèles MoE en gérant mémoire, communication et calcul.	1 970	537
16	perf-moe-vlm-training	nvidia/skills	Optimiser l'entraînement de VLM MoE avec FSDP ou parallélisme 3D.	1 970	537
17	perf-parallelism-strategies	nvidia/skills	Sélectionner la stratégie de parallélisme optimale selon la taille du modèle et le matériel.	1 970	537
18	perf-sequence-packing	nvidia/skills	Configurer le packing de séquences pour le finetuning LLM et VLM optimisé.	1 970	537
19	perf-tp-dp-comm-overlap	nvidia/skills	Configurer le chevauchement des communications TP/DP/PP pour optimiser l'entraînement distribué.	1 970	537
20	recipe-recommender	nvidia/skills	Indexer les recettes d'entraînement et recommander la configuration optimale pour LLM.	1 970	537
21	resiliency	nvidia/skills	Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués.	1 970	537
22	accessing-mlflow	nvidia/skills	Interroger et comparer des runs MLflow via langage naturel et MCP.	1 970	537
23	evaluation	nvidia/skills	Générer et exécuter des configurations YAML d'évaluation de modèles LLM via NeMo Evaluator.	1 970	537
24	ptq	nvidia/skills	Quantifier un modèle pré-entraîné en checkpoint optimisé via ModelOpt PTQ.	1 970	537
25	ad-model-onboard	nvidia/skills	Automatiser l'intégration de modèles HuggingFace dans AutoDeploy avec tests et rapport.	1 970	537
26	nel-assistant	nvidia/skills	Générer et exécuter des configurations YAML d'évaluation de modèles via NeMo Evaluator.	1 970	537
27	add-benchmark	nvidia/skills	Intégrer un benchmark natif ou externe dans le framework NeMo-Gym.	1 970	537
28	ad-add-fusion-transformation	nvidia/skills	Ajouter, étendre ou auditer un pass de fusion dans AutoDeploy de TensorRT-LLM.	1 970	537
29	exec-local-compile	nvidia/skills	Compiler TensorRT-LLM depuis les sources sur un nœud de calcul avec GPU.	1 970	537
30	kernel-cute-writing	nvidia/skills	Développer des kernels GPU optimisés en Python via JIT compilation CUDA avec CUTLASS.	1 970	537
31	kernel-tileir-optimization	nvidia/skills	Optimiser des kernels Triton existants pour le backend TileIR de Blackwell GPUs.	1 970	537
32	kernel-triton-writing	nvidia/skills	Écrire des kernels Triton corrects, performants et précis pour agents IA.	1 970	537
33	perf-analysis	nvidia/skills	Analyser les performances GPU en classifiant les goulots d'étranglement et produisant des rapports structurés.	1 970	537
34	perf-host-optimization	nvidia/skills	Détecter et optimiser automatiquement les goulots d'étranglement CPU dans TensorRT-LLM.	1 970	537
35	perf-optimization	nvidia/skills	Coordonner des spécialistes GPU pour optimiser et valider les performances de kernels.	1 970	537
36	perf-torch-cuda-graphs	nvidia/skills	Optimiser les workloads PyTorch en capturant et rejouant des séquences GPU via CUDA Graphs.	1 970	537
37	perf-torch-sync-free	nvidia/skills	Écrire du code PyTorch asynchrone en éliminant les synchronisations CPU-GPU inutiles.	1 970	537
38	cuopt-installation-api-python	nvidia/skills	Installer cuOpt via pip, conda ou Docker pour optimiser des routes en Python.	1 970	537
39	cuopt-lp-milp-api-c	nvidia/skills	Résoudre des problèmes LP/MILP avec l'API C de cuOpt via CSR sparse.	1 970	537
40	cuopt-lp-milp-api-cli	nvidia/skills	Résoudre des problèmes LP/MILP via CLI avec des fichiers MPS et cuOpt.	1 970	537
41	cuopt-lp-milp-api-python	nvidia/skills	Modéliser et résoudre des programmes linéaires LP/MILP avec le solveur GPU cuOpt.	1 970	537
42	cuopt-qp-api-c	nvidia/skills	Résoudre des problèmes d'optimisation quadratique via l'API C de cuOpt.	1 970	537
43	cuopt-qp-api-cli	nvidia/skills	Résoudre des problèmes d'optimisation quadratique via l'interface CLI cuOpt.	1 970	537
44	cuopt-qp-api-python	nvidia/skills	Résoudre des problèmes d'optimisation quadratique en Python avec cuOpt QP.	1 970	537
45	cuopt-user-rules	nvidia/skills	Optimiser des problèmes de routage et logistique avec cuOpt via des échanges guidés.	1 970	537
46	lp-milp-formulation	nvidia/skills	Formuler des problèmes d'optimisation LP/MILP en variables, contraintes et objectifs.	1 970	537
47	qp-formulation	nvidia/skills	Formuler et résoudre des problèmes de programmation quadratique avec contraintes linéaires.	1 970	537
48	adding-cutile-kernel	nvidia/skills	Intégrer un nouvel opérateur cuTile dans TileGym selon un workflow structuré étape par étape.	1 970	537
49	cutile-python	nvidia/skills	Écrire, déboguer et optimiser des kernels GPU haute performance avec cuTile Python.	1 970	537
50	monkey-patch-kernels-to-transformers	nvidia/skills	Intégrer des kernels TileGym dans Transformers via monkey-patching pour optimiser les LLM.	1 970	537

À propos de cette sélection

Quand un modèle de base commence à produire des réponses trop génériques pour rester crédibles en production, le travail sérieux commence. Cette section s'adresse aux ingénieurs ML et aux équipes qui adaptent, évaluent et débogent des modèles en conditions réelles : affiner un LLM sur un corpus métier avec Hugging Face, tracer des expériences d'entraînement bout en bout, ou remonter un bug de compilation dans le runtime PyTorch avant qu'il bloque un pipeline entier. Les skills training & fine-tuning couvrent un spectre plus large que le seul fine-tuning supervisé. On y trouve des outils d'annotation, de benchmarking, de kernels custom côté NVIDIA, et quelques skills orientés recherche reproductible. L'outillage reste majoritairement Python, avec une densité forte autour des frameworks majeurs. Certains cas avancés demandent encore de composer plusieurs skills ensemble, mais la base est solide.