Training & Fine-tuning

Entrainement et fine-tuning de modeles, MLOps, recherche scientifique.

324 skills

# Skill Source Description Δ
1 cudaq-guide nvidia/skills Guider l'utilisateur dans CUDA-Q : installation, simulation GPU et accès QPU. 1 970 537
2 mlm-bridge-training nvidia/skills Comparer et valider les pertes entre Megatron-LM et Bridge sur GPU. 1 970 537
3 parity-testing nvidia/skills Vérifier la parité des poids et des passes avant entre modèles HF et Megatron. 1 970 537
4 perf-activation-recompute nvidia/skills Optimiser la mémoire GPU en recomputant sélectivement les activations pendant la rétropropagation. 1 970 537
5 perf-cpu-offloading nvidia/skills Décharger activations ou états d'optimiseur du GPU vers le CPU pour économiser de la mémoire. 1 970 537
6 perf-cuda-graphs nvidia/skills Configurer et optimiser les CUDA graphs GPU pour accélérer l'entraînement de modèles. 1 970 537
7 perf-expert-parallel-overlap nvidia/skills Masquer la latence des communications all-to-all dans les modèles MoE via un chevauchement calcul/communication. 1 970 537
8 perf-hybrid-context-parallel nvidia/skills Configurer le parallélisme de contexte hybride hiérarchique pour l'entraînement distribué de LLMs. 1 970 537
9 perf-megatron-fsdp nvidia/skills Configurer et valider l'entraînement distribué avec Megatron FSDP dans Bridge. 1 970 537
10 perf-memory-tuning nvidia/skills Optimiser la mémoire GPU pour éviter les erreurs OOM lors de l'entraînement de modèles. 1 970 537
11 perf-moe-comm-overlap nvidia/skills Activer et configurer le chevauchement des communications MoE en parallélisme expert. 1 970 537
12 perf-moe-dispatcher-selection nvidia/skills Sélectionner le dispatcher MoE optimal selon le matériel, le modèle et le degré EP. 1 970 537
13 perf-moe-hardware-configs nvidia/skills Configurer les paramètres matériels optimaux pour entraîner des modèles MoE sur GPU. 1 970 537
14 perf-moe-long-context nvidia/skills Optimiser l'entraînement long-contexte des modèles MoE avec parallélisme et recompute. 1 970 537
15 perf-moe-optimization-workflow nvidia/skills Optimiser l'entraînement de modèles MoE en gérant mémoire, communication et calcul. 1 970 537
16 perf-moe-vlm-training nvidia/skills Optimiser l'entraînement de VLM MoE avec FSDP ou parallélisme 3D. 1 970 537
17 perf-parallelism-strategies nvidia/skills Sélectionner la stratégie de parallélisme optimale selon la taille du modèle et le matériel. 1 970 537
18 perf-sequence-packing nvidia/skills Configurer le packing de séquences pour le finetuning LLM et VLM optimisé. 1 970 537
19 perf-tp-dp-comm-overlap nvidia/skills Configurer le chevauchement des communications TP/DP/PP pour optimiser l'entraînement distribué. 1 970 537
20 recipe-recommender nvidia/skills Indexer les recettes d'entraînement et recommander la configuration optimale pour LLM. 1 970 537
21 resiliency nvidia/skills Configurer la tolérance aux pannes, détection de stragglers et préemption pour entraînements distribués. 1 970 537
22 accessing-mlflow nvidia/skills Interroger et comparer des runs MLflow via langage naturel et MCP. 1 970 537
23 evaluation nvidia/skills Générer et exécuter des configurations YAML d'évaluation de modèles LLM via NeMo Evaluator. 1 970 537
24 ptq nvidia/skills Quantifier un modèle pré-entraîné en checkpoint optimisé via ModelOpt PTQ. 1 970 537
25 ad-model-onboard nvidia/skills Automatiser l'intégration de modèles HuggingFace dans AutoDeploy avec tests et rapport. 1 970 537
26 nel-assistant nvidia/skills Générer et exécuter des configurations YAML d'évaluation de modèles via NeMo Evaluator. 1 970 537
27 add-benchmark nvidia/skills Intégrer un benchmark natif ou externe dans le framework NeMo-Gym. 1 970 537
28 ad-add-fusion-transformation nvidia/skills Ajouter, étendre ou auditer un pass de fusion dans AutoDeploy de TensorRT-LLM. 1 970 537
29 exec-local-compile nvidia/skills Compiler TensorRT-LLM depuis les sources sur un nœud de calcul avec GPU. 1 970 537
30 kernel-cute-writing nvidia/skills Développer des kernels GPU optimisés en Python via JIT compilation CUDA avec CUTLASS. 1 970 537
31 kernel-tileir-optimization nvidia/skills Optimiser des kernels Triton existants pour le backend TileIR de Blackwell GPUs. 1 970 537
32 kernel-triton-writing nvidia/skills Écrire des kernels Triton corrects, performants et précis pour agents IA. 1 970 537
33 perf-analysis nvidia/skills Analyser les performances GPU en classifiant les goulots d'étranglement et produisant des rapports structurés. 1 970 537
34 perf-host-optimization nvidia/skills Détecter et optimiser automatiquement les goulots d'étranglement CPU dans TensorRT-LLM. 1 970 537
35 perf-optimization nvidia/skills Coordonner des spécialistes GPU pour optimiser et valider les performances de kernels. 1 970 537
36 perf-torch-cuda-graphs nvidia/skills Optimiser les workloads PyTorch en capturant et rejouant des séquences GPU via CUDA Graphs. 1 970 537
37 perf-torch-sync-free nvidia/skills Écrire du code PyTorch asynchrone en éliminant les synchronisations CPU-GPU inutiles. 1 970 537
38 cuopt-installation-api-python nvidia/skills Installer cuOpt via pip, conda ou Docker pour optimiser des routes en Python. 1 970 537
39 cuopt-lp-milp-api-c nvidia/skills Résoudre des problèmes LP/MILP avec l'API C de cuOpt via CSR sparse. 1 970 537
40 cuopt-lp-milp-api-cli nvidia/skills Résoudre des problèmes LP/MILP via CLI avec des fichiers MPS et cuOpt. 1 970 537
41 cuopt-lp-milp-api-python nvidia/skills Modéliser et résoudre des programmes linéaires LP/MILP avec le solveur GPU cuOpt. 1 970 537
42 cuopt-qp-api-c nvidia/skills Résoudre des problèmes d'optimisation quadratique via l'API C de cuOpt. 1 970 537
43 cuopt-qp-api-cli nvidia/skills Résoudre des problèmes d'optimisation quadratique via l'interface CLI cuOpt. 1 970 537
44 cuopt-qp-api-python nvidia/skills Résoudre des problèmes d'optimisation quadratique en Python avec cuOpt QP. 1 970 537
45 cuopt-user-rules nvidia/skills Optimiser des problèmes de routage et logistique avec cuOpt via des échanges guidés. 1 970 537
46 lp-milp-formulation nvidia/skills Formuler des problèmes d'optimisation LP/MILP en variables, contraintes et objectifs. 1 970 537
47 qp-formulation nvidia/skills Formuler et résoudre des problèmes de programmation quadratique avec contraintes linéaires. 1 970 537
48 adding-cutile-kernel nvidia/skills Intégrer un nouvel opérateur cuTile dans TileGym selon un workflow structuré étape par étape. 1 970 537
49 cutile-python nvidia/skills Écrire, déboguer et optimiser des kernels GPU haute performance avec cuTile Python. 1 970 537
50 monkey-patch-kernels-to-transformers nvidia/skills Intégrer des kernels TileGym dans Transformers via monkey-patching pour optimiser les LLM. 1 970 537

À propos de cette sélection

Quand un modèle de base commence à produire des réponses trop génériques pour rester crédibles en production, le travail sérieux commence. Cette section s'adresse aux ingénieurs ML et aux équipes qui adaptent, évaluent et débogent des modèles en conditions réelles : affiner un LLM sur un corpus métier avec Hugging Face, tracer des expériences d'entraînement bout en bout, ou remonter un bug de compilation dans le runtime PyTorch avant qu'il bloque un pipeline entier. Les skills training & fine-tuning couvrent un spectre plus large que le seul fine-tuning supervisé. On y trouve des outils d'annotation, de benchmarking, de kernels custom côté NVIDIA, et quelques skills orientés recherche reproductible. L'outillage reste majoritairement Python, avec une densité forte autour des frameworks majeurs. Certains cas avancés demandent encore de composer plusieurs skills ensemble, mais la base est solide.