Training & Fine-tuning

Entrainement et fine-tuning de modeles, MLOps, recherche scientifique.

86 skills

#	Skill	Source	Description		Maj
1	arize-annotation	github/awesome-copilot	Créer et gérer des configs d'annotation pour labelliser des spans IA via Arize.	32 878	20h
2	arize-experiment	github/awesome-copilot	Gérer et exporter des expériences d'évaluation de modèles IA via Arize.	32 878	20h
3	monkey-patch-kernels-to-transformers	nvidia/skills	Intégrer des kernels TileGym dans Transformers via monkey-patching pour optimiser les LLM.	85	4j
4	video-understanding	nvidia/skills	Interroger une vidéo via un agent VLM pour analyser frames, objets et actions visuelles.	85	5j
5	vss-frag	nvidia/skills	Analyser des vidéos avec RAG d'entreprise pour générer des rapports enrichis.	85	5j
6	adding-cutile-kernel	nvidia/skills	Intégrer un nouvel opérateur cuTile dans TileGym selon un workflow structuré étape par étape.	85	5j
7	converting-cutile-to-julia	nvidia/skills	Convertir des kernels GPU Python cuTile en kernels Julia cuTile.jl compilables et testés.	85	5j
8	converting-cutile-to-triton	nvidia/skills	Convertir des kernels cuTile en kernels Triton via un workflow structuré en cinq phases.	85	5j
9	cutile-python	nvidia/skills	Écrire, déboguer et optimiser des kernels GPU haute performance avec cuTile Python.	85	5j
10	byob	nvidia/skills	Créer des benchmarks d'évaluation personnalisés pour LLM avec NeMo Evaluator.	85	5j
11	cuopt-numerical-optimization-api-c	nvidia/skills	Résoudre des problèmes LP, MILP et QP via l'API C de cuOpt.	85	5j
12	cuopt-numerical-optimization-api-cli	nvidia/skills	Résoudre des problèmes LP, MILP et QP via fichiers MPS avec cuopt_cli.	85	5j
13	cuopt-numerical-optimization-api-python	nvidia/skills	Modéliser et résoudre des problèmes LP, MILP et QP avec cuOpt GPU d'NVIDIA.	85	5j
14	numerical-optimization-formulation	nvidia/skills	Formuler des problèmes d'optimisation numérique LP, MILP et QP avec rigueur.	85	5j
15	cuopt-user-rules	nvidia/skills	Optimiser des problèmes de routage et logistique avec cuOpt via des échanges guidés.	85	5j
16	experiment-analyzer	datadog-labs/agent-skills	Analyser et comparer des expériences LLM via leurs métriques, dimensions et événements.	108	6j
17	eval-bootstrap	datadog-labs/agent-skills	Générer du code d'évaluation Python à partir de traces de production LLM Datadog.	108	6j
18	train-sentence-transformers	huggingface/skills	Entraîner des modèles sentence-transformers bi-encodeur, cross-encoder ou SPLADE selon le cas d'usage.	10 483	6j
19	exploring-apm-traces	posthog/skills	Explorer les traces APM OpenTelemetry pour analyser performances et erreurs des services distribués.	36	7j
20	ai-engineering	elophanto/elophanto	Concevoir, déployer et optimiser des modèles IA/ML en production de bout en bout.	59	10j
21	autonomous-experimentation	elophanto/elophanto	Exécuter une boucle d'expérimentation autonome pour optimiser métriquement n'importe quel code.	59	10j
22	ranger-finance	elophanto/elophanto	Agréger et router des ordres de futures perpétuels sur Solana via plusieurs protocoles.	59	10j
23	mlm-bridge-training	nvidia/skills	Comparer et valider les pertes entre Megatron-LM et Bridge sur GPU.	85	12j
24	parity-testing	nvidia/skills	Vérifier la parité des poids et des passes avant entre modèles HF et Megatron.	85	12j
25	perf-activation-recompute	nvidia/skills	Optimiser la mémoire GPU en recomputant sélectivement les activations pendant la rétropropagation.	85	12j
26	perf-megatron-fsdp	nvidia/skills	Configurer et valider l'entraînement distribué avec Megatron FSDP dans Bridge.	85	12j
27	perf-moe-dispatcher-selection	nvidia/skills	Sélectionner le dispatcher MoE optimal selon le matériel, le modèle et le degré EP.	85	12j
28	perf-moe-hardware-configs	nvidia/skills	Configurer les paramètres matériels optimaux pour entraîner des modèles MoE sur GPU.	85	12j
29	perf-moe-long-context	nvidia/skills	Optimiser l'entraînement long-contexte des modèles MoE avec parallélisme et recompute.	85	12j
30	perf-moe-optimization-workflow	nvidia/skills	Optimiser l'entraînement de modèles MoE en gérant mémoire, communication et calcul.	85	12j
31	perf-moe-vlm-training	nvidia/skills	Optimiser l'entraînement de VLM MoE avec FSDP ou parallélisme 3D.	85	12j
32	perf-parallelism-strategies	nvidia/skills	Sélectionner la stratégie de parallélisme optimale selon la taille du modèle et le matériel.	85	12j
33	perf-sequence-packing	nvidia/skills	Configurer le packing de séquences pour le finetuning LLM et VLM optimisé.	85	12j
34	perf-tp-dp-comm-overlap	nvidia/skills	Configurer le chevauchement des communications TP/DP/PP pour optimiser l'entraînement distribué.	85	12j
35	recipe-recommender	nvidia/skills	Indexer les recettes d'entraînement et recommander la configuration optimale pour LLM.	85	12j
36	cudaq-guide	nvidia/skills	Guider l'utilisateur dans CUDA-Q : installation, simulation GPU et accès QPU.	85	14j
37	evaluation	nvidia/skills	Générer et exécuter des configurations YAML d'évaluation de modèles LLM via NeMo Evaluator.	85	14j
38	launching-evals	nvidia/skills	Lancer, surveiller et analyser des évaluations de modèles IA via NeMo Evaluator.	85	14j
39	ptq	nvidia/skills	Quantifier un modèle pré-entraîné en checkpoint optimisé via ModelOpt PTQ.	85	14j
40	nel-assistant	nvidia/skills	Générer et exécuter des configurations YAML d'évaluation de modèles via NeMo Evaluator.	85	14j
41	ad-add-fusion-transformation	nvidia/skills	Ajouter, étendre ou auditer un pass de fusion dans AutoDeploy de TensorRT-LLM.	85	14j
42	ad-graph-dump	nvidia/skills	Visualiser l'évolution des graphes FX après chaque transformation AutoDeploy via dump.	85	14j
43	ad-model-onboard	nvidia/skills	Automatiser l'intégration de modèles HuggingFace dans AutoDeploy avec tests et rapport.	85	14j
44	flashinfer-upgrade	nvidia/skills	Mettre à jour automatiquement le package flashinfer-python dans TensorRT-LLM.	85	14j
45	build-models	replicate/skills	Packager un modèle ML avec Cog pour le déployer sur Replicate.	41	15j
46	eval-driven-dev	github/awesome-copilot	Construire un pipeline d'évaluation automatisé end-to-end pour applications Python utilisant un LLM.	32 878	15j
47	publish-models	replicate/skills	Publier et tester un modèle Cog sur Replicate avec validation automatique.	41	16j
48	azure-ai-ml-py	microsoft/skills	Gérer les ressources Azure ML via le SDK Python v2.	2 300	20j
49	omni-ai-eval	exploreomni/omni-agent-skills	Évaluer la génération de requêtes IA d'Omni en comparant résultats attendus et obtenus.	16	20j
50	accessing-mlflow	nvidia/skills	Interroger et comparer des runs MLflow via langage naturel et MCP.	85	26j

À propos de cette sélection

Quand un modèle de base commence à produire des réponses trop génériques pour rester crédibles en production, le travail sérieux commence. Cette section s'adresse aux ingénieurs ML et aux équipes qui adaptent, évaluent et débogent des modèles en conditions réelles : affiner un LLM sur un corpus métier avec Hugging Face, tracer des expériences d'entraînement bout en bout, ou remonter un bug de compilation dans le runtime PyTorch avant qu'il bloque un pipeline entier. Les skills training & fine-tuning couvrent un spectre plus large que le seul fine-tuning supervisé. On y trouve des outils d'annotation, de benchmarking, de kernels custom côté NVIDIA, et quelques skills orientés recherche reproductible. L'outillage reste majoritairement Python, avec une densité forte autour des frameworks majeurs. Certains cas avancés demandent encore de composer plusieurs skills ensemble, mais la base est solide.