Training & Fine-tuning

Entrainement et fine-tuning de modeles, MLOps, recherche scientifique.

86 skills

# Skill Source Description Maj
1 arize-annotation github/awesome-copilot Créer et gérer des configs d'annotation pour labelliser des spans IA via Arize. 32 878 20h
2 arize-experiment github/awesome-copilot Gérer et exporter des expériences d'évaluation de modèles IA via Arize. 32 878 20h
3 monkey-patch-kernels-to-transformers nvidia/skills Intégrer des kernels TileGym dans Transformers via monkey-patching pour optimiser les LLM. 85 4j
4 video-understanding nvidia/skills Interroger une vidéo via un agent VLM pour analyser frames, objets et actions visuelles. 85 5j
5 vss-frag nvidia/skills Analyser des vidéos avec RAG d'entreprise pour générer des rapports enrichis. 85 5j
6 adding-cutile-kernel nvidia/skills Intégrer un nouvel opérateur cuTile dans TileGym selon un workflow structuré étape par étape. 85 5j
7 converting-cutile-to-julia nvidia/skills Convertir des kernels GPU Python cuTile en kernels Julia cuTile.jl compilables et testés. 85 5j
8 converting-cutile-to-triton nvidia/skills Convertir des kernels cuTile en kernels Triton via un workflow structuré en cinq phases. 85 5j
9 cutile-python nvidia/skills Écrire, déboguer et optimiser des kernels GPU haute performance avec cuTile Python. 85 5j
10 byob nvidia/skills Créer des benchmarks d'évaluation personnalisés pour LLM avec NeMo Evaluator. 85 5j
11 cuopt-numerical-optimization-api-c nvidia/skills Résoudre des problèmes LP, MILP et QP via l'API C de cuOpt. 85 5j
12 cuopt-numerical-optimization-api-cli nvidia/skills Résoudre des problèmes LP, MILP et QP via fichiers MPS avec cuopt_cli. 85 5j
13 cuopt-numerical-optimization-api-python nvidia/skills Modéliser et résoudre des problèmes LP, MILP et QP avec cuOpt GPU d'NVIDIA. 85 5j
14 numerical-optimization-formulation nvidia/skills Formuler des problèmes d'optimisation numérique LP, MILP et QP avec rigueur. 85 5j
15 cuopt-user-rules nvidia/skills Optimiser des problèmes de routage et logistique avec cuOpt via des échanges guidés. 85 5j
16 experiment-analyzer datadog-labs/agent-skills Analyser et comparer des expériences LLM via leurs métriques, dimensions et événements. 108 6j
17 eval-bootstrap datadog-labs/agent-skills Générer du code d'évaluation Python à partir de traces de production LLM Datadog. 108 6j
18 train-sentence-transformers huggingface/skills Entraîner des modèles sentence-transformers bi-encodeur, cross-encoder ou SPLADE selon le cas d'usage. 10 483 6j
19 exploring-apm-traces posthog/skills Explorer les traces APM OpenTelemetry pour analyser performances et erreurs des services distribués. 36 7j
20 ai-engineering elophanto/elophanto Concevoir, déployer et optimiser des modèles IA/ML en production de bout en bout. 59 10j
21 autonomous-experimentation elophanto/elophanto Exécuter une boucle d'expérimentation autonome pour optimiser métriquement n'importe quel code. 59 10j
22 ranger-finance elophanto/elophanto Agréger et router des ordres de futures perpétuels sur Solana via plusieurs protocoles. 59 10j
23 mlm-bridge-training nvidia/skills Comparer et valider les pertes entre Megatron-LM et Bridge sur GPU. 85 12j
24 parity-testing nvidia/skills Vérifier la parité des poids et des passes avant entre modèles HF et Megatron. 85 12j
25 perf-activation-recompute nvidia/skills Optimiser la mémoire GPU en recomputant sélectivement les activations pendant la rétropropagation. 85 12j
26 perf-megatron-fsdp nvidia/skills Configurer et valider l'entraînement distribué avec Megatron FSDP dans Bridge. 85 12j
27 perf-moe-dispatcher-selection nvidia/skills Sélectionner le dispatcher MoE optimal selon le matériel, le modèle et le degré EP. 85 12j
28 perf-moe-hardware-configs nvidia/skills Configurer les paramètres matériels optimaux pour entraîner des modèles MoE sur GPU. 85 12j
29 perf-moe-long-context nvidia/skills Optimiser l'entraînement long-contexte des modèles MoE avec parallélisme et recompute. 85 12j
30 perf-moe-optimization-workflow nvidia/skills Optimiser l'entraînement de modèles MoE en gérant mémoire, communication et calcul. 85 12j
31 perf-moe-vlm-training nvidia/skills Optimiser l'entraînement de VLM MoE avec FSDP ou parallélisme 3D. 85 12j
32 perf-parallelism-strategies nvidia/skills Sélectionner la stratégie de parallélisme optimale selon la taille du modèle et le matériel. 85 12j
33 perf-sequence-packing nvidia/skills Configurer le packing de séquences pour le finetuning LLM et VLM optimisé. 85 12j
34 perf-tp-dp-comm-overlap nvidia/skills Configurer le chevauchement des communications TP/DP/PP pour optimiser l'entraînement distribué. 85 12j
35 recipe-recommender nvidia/skills Indexer les recettes d'entraînement et recommander la configuration optimale pour LLM. 85 12j
36 cudaq-guide nvidia/skills Guider l'utilisateur dans CUDA-Q : installation, simulation GPU et accès QPU. 85 14j
37 evaluation nvidia/skills Générer et exécuter des configurations YAML d'évaluation de modèles LLM via NeMo Evaluator. 85 14j
38 launching-evals nvidia/skills Lancer, surveiller et analyser des évaluations de modèles IA via NeMo Evaluator. 85 14j
39 ptq nvidia/skills Quantifier un modèle pré-entraîné en checkpoint optimisé via ModelOpt PTQ. 85 14j
40 nel-assistant nvidia/skills Générer et exécuter des configurations YAML d'évaluation de modèles via NeMo Evaluator. 85 14j
41 ad-add-fusion-transformation nvidia/skills Ajouter, étendre ou auditer un pass de fusion dans AutoDeploy de TensorRT-LLM. 85 14j
42 ad-graph-dump nvidia/skills Visualiser l'évolution des graphes FX après chaque transformation AutoDeploy via dump. 85 14j
43 ad-model-onboard nvidia/skills Automatiser l'intégration de modèles HuggingFace dans AutoDeploy avec tests et rapport. 85 14j
44 flashinfer-upgrade nvidia/skills Mettre à jour automatiquement le package flashinfer-python dans TensorRT-LLM. 85 14j
45 build-models replicate/skills Packager un modèle ML avec Cog pour le déployer sur Replicate. 41 15j
46 eval-driven-dev github/awesome-copilot Construire un pipeline d'évaluation automatisé end-to-end pour applications Python utilisant un LLM. 32 878 15j
47 publish-models replicate/skills Publier et tester un modèle Cog sur Replicate avec validation automatique. 41 16j
48 azure-ai-ml-py microsoft/skills Gérer les ressources Azure ML via le SDK Python v2. 2 300 20j
49 omni-ai-eval exploreomni/omni-agent-skills Évaluer la génération de requêtes IA d'Omni en comparant résultats attendus et obtenus. 16 20j
50 accessing-mlflow nvidia/skills Interroger et comparer des runs MLflow via langage naturel et MCP. 85 26j

À propos de cette sélection

Quand un modèle de base commence à produire des réponses trop génériques pour rester crédibles en production, le travail sérieux commence. Cette section s'adresse aux ingénieurs ML et aux équipes qui adaptent, évaluent et débogent des modèles en conditions réelles : affiner un LLM sur un corpus métier avec Hugging Face, tracer des expériences d'entraînement bout en bout, ou remonter un bug de compilation dans le runtime PyTorch avant qu'il bloque un pipeline entier. Les skills training & fine-tuning couvrent un spectre plus large que le seul fine-tuning supervisé. On y trouve des outils d'annotation, de benchmarking, de kernels custom côté NVIDIA, et quelques skills orientés recherche reproductible. L'outillage reste majoritairement Python, avec une densité forte autour des frameworks majeurs. Certains cas avancés demandent encore de composer plusieurs skills ensemble, mais la base est solide.