Training & Fine-tuning

Entrainement et fine-tuning de modeles, MLOps, recherche scientifique.

66 skills

#	Skill	Source	Description		Δ
1	jupyter-notebook	openai/skills	Créer et structurer des notebooks Jupyter reproductibles pour expériences ou tutoriels.	19 023	592
2	arize-annotation	github/awesome-copilot	Créer et gérer des configs d'annotation pour labelliser des spans IA via Arize.	32 871	588
3	arize-experiment	github/awesome-copilot	Gérer et exporter des expériences d'évaluation de modèles IA via Arize.	32 871	588
4	datanalysis-credit-risk	github/awesome-copilot	Nettoyer et sélectionner des variables pour modélisation de risque crédit.	32 871	588
5	eval-driven-dev	github/awesome-copilot	Construire un pipeline d'évaluation automatisé end-to-end pour applications Python utilisant un LLM.	32 871	588
6	statistical-analysis	anthropics/knowledge-work-plugins	Analyser des données statistiques avec tendances, distributions et tests d'hypothèses.	12 099	241
7	scvi-tools	anthropics/knowledge-work-plugins	Analyser des données single-cell multi-modales avec les modèles probabilistes scvi-tools.	12 099	241
8	aoti-debug	pytorch/pytorch	Diagnostiquer et corriger les erreurs courantes d'AOTInductor avec méthode.	99 883	191
9	pt2-bug-basher	pytorch/pytorch	Déboguer les erreurs de compilation PyTorch 2 via Dynamo, Inductor et AOTAutograd.	99 883	191
10	huggingface-community-evals	huggingface/skills	Évaluer localement des modèles Hugging Face Hub avec inspect-ai ou lighteval.	10 483	77
11	huggingface-llm-trainer	huggingface/skills	Entraîner des modèles de langage avec TRL sur l'infrastructure cloud Hugging Face Jobs.	10 483	77
12	huggingface-trackio	huggingface/skills	Suivre, visualiser et piloter des expériences d'entraînement ML en temps réel.	10 483	77
13	huggingface-vision-trainer	huggingface/skills	Entraîner des modèles de vision (détection, classification, segmentation) sur GPU cloud Hugging Face.	10 483	77
14	train-sentence-transformers	huggingface/skills	Entraîner des modèles sentence-transformers bi-encodeur, cross-encoder ou SPLADE selon le cas d'usage.	10 483	77
15	azure-ai-ml-py	microsoft/skills	Gérer les ressources Azure ML via le SDK Python v2.	2 300	68
16	autoresearch	factory-ai/factory-plugins	Optimiser une métrique en boucle autonome d'expériences avec suivi d'état.	72	5
17	ai-engineering	elophanto/elophanto	Concevoir, déployer et optimiser des modèles IA/ML en production de bout en bout.	59	5
18	autonomous-experimentation	elophanto/elophanto	Exécuter une boucle d'expérimentation autonome pour optimiser métriquement n'importe quel code.	59	5
19	eval-bootstrap	datadog-labs/agent-skills	Générer du code d'évaluation Python à partir de traces de production LLM Datadog.	107	4
20	experiment-analyzer	datadog-labs/agent-skills	Analyser et comparer des expériences LLM via leurs métriques, dimensions et événements.	107	4
21	cudaq-guide	nvidia/skills	Guider l'utilisateur dans CUDA-Q : installation, simulation GPU et accès QPU.	85	3
22	mlm-bridge-training	nvidia/skills	Comparer et valider les pertes entre Megatron-LM et Bridge sur GPU.	85	3
23	parity-testing	nvidia/skills	Vérifier la parité des poids et des passes avant entre modèles HF et Megatron.	85	3
24	perf-activation-recompute	nvidia/skills	Optimiser la mémoire GPU en recomputant sélectivement les activations pendant la rétropropagation.	85	3
25	perf-megatron-fsdp	nvidia/skills	Configurer et valider l'entraînement distribué avec Megatron FSDP dans Bridge.	85	3
26	perf-moe-dispatcher-selection	nvidia/skills	Sélectionner le dispatcher MoE optimal selon le matériel, le modèle et le degré EP.	85	3
27	perf-moe-hardware-configs	nvidia/skills	Configurer les paramètres matériels optimaux pour entraîner des modèles MoE sur GPU.	85	3
28	perf-moe-long-context	nvidia/skills	Optimiser l'entraînement long-contexte des modèles MoE avec parallélisme et recompute.	85	3
29	perf-moe-optimization-workflow	nvidia/skills	Optimiser l'entraînement de modèles MoE en gérant mémoire, communication et calcul.	85	3
30	perf-moe-vlm-training	nvidia/skills	Optimiser l'entraînement de VLM MoE avec FSDP ou parallélisme 3D.	85	3
31	perf-parallelism-strategies	nvidia/skills	Sélectionner la stratégie de parallélisme optimale selon la taille du modèle et le matériel.	85	3
32	perf-sequence-packing	nvidia/skills	Configurer le packing de séquences pour le finetuning LLM et VLM optimisé.	85	3
33	perf-tp-dp-comm-overlap	nvidia/skills	Configurer le chevauchement des communications TP/DP/PP pour optimiser l'entraînement distribué.	85	3
34	recipe-recommender	nvidia/skills	Indexer les recettes d'entraînement et recommander la configuration optimale pour LLM.	85	3
35	accessing-mlflow	nvidia/skills	Interroger et comparer des runs MLflow via langage naturel et MCP.	85	3
36	evaluation	nvidia/skills	Générer et exécuter des configurations YAML d'évaluation de modèles LLM via NeMo Evaluator.	85	3
37	launching-evals	nvidia/skills	Lancer, surveiller et analyser des évaluations de modèles IA via NeMo Evaluator.	85	3
38	ptq	nvidia/skills	Quantifier un modèle pré-entraîné en checkpoint optimisé via ModelOpt PTQ.	85	3
39	byob	nvidia/skills	Créer des benchmarks d'évaluation personnalisés pour LLM avec NeMo Evaluator.	85	3
40	ad-graph-dump	nvidia/skills	Visualiser l'évolution des graphes FX après chaque transformation AutoDeploy via dump.	85	3
41	ad-model-onboard	nvidia/skills	Automatiser l'intégration de modèles HuggingFace dans AutoDeploy avec tests et rapport.	85	3
42	exec-local-compile	nvidia/skills	Compiler TensorRT-LLM depuis les sources sur un nœud de calcul avec GPU.	85	3
43	nel-assistant	nvidia/skills	Générer et exécuter des configurations YAML d'évaluation de modèles via NeMo Evaluator.	85	3
44	add-benchmark	nvidia/skills	Intégrer un benchmark natif ou externe dans le framework NeMo-Gym.	85	3
45	ad-add-fusion-transformation	nvidia/skills	Ajouter, étendre ou auditer un pass de fusion dans AutoDeploy de TensorRT-LLM.	85	3
46	flashinfer-upgrade	nvidia/skills	Mettre à jour automatiquement le package flashinfer-python dans TensorRT-LLM.	85	3
47	kernel-cute-writing	nvidia/skills	Développer des kernels GPU optimisés en Python via JIT compilation CUDA avec CUTLASS.	85	3
48	kernel-tileir-optimization	nvidia/skills	Optimiser des kernels Triton existants pour le backend TileIR de Blackwell GPUs.	85	3
49	kernel-triton-writing	nvidia/skills	Écrire des kernels Triton corrects, performants et précis pour agents IA.	85	3
50	perf-host-optimization	nvidia/skills	Détecter et optimiser automatiquement les goulots d'étranglement CPU dans TensorRT-LLM.	85	3

À propos de cette sélection

Quand un modèle de base commence à produire des réponses trop génériques pour rester crédibles en production, le travail sérieux commence. Cette section s'adresse aux ingénieurs ML et aux équipes qui adaptent, évaluent et débogent des modèles en conditions réelles : affiner un LLM sur un corpus métier avec Hugging Face, tracer des expériences d'entraînement bout en bout, ou remonter un bug de compilation dans le runtime PyTorch avant qu'il bloque un pipeline entier. Les skills training & fine-tuning couvrent un spectre plus large que le seul fine-tuning supervisé. On y trouve des outils d'annotation, de benchmarking, de kernels custom côté NVIDIA, et quelques skills orientés recherche reproductible. L'outillage reste majoritairement Python, avec une densité forte autour des frameworks majeurs. Certains cas avancés demandent encore de composer plusieurs skills ensemble, mais la base est solide.