distilqwen

Par mkurman · zorai

DistilQwen2.5 — Pratiques industrielles d'Alibaba pour l'entraînement de modèles de langage légers open source par distillation. Distillation de connaissances de Qwen2.5 72B vers des modèles plus petits de 0,5B à 7B paramètres.

npx skills add https://github.com/mkurman/zorai --skill distilqwen

Aperçu

DistilQwen2.5 (Alibaba, arXiv:2504.15027) fournit des pratiques industrielles pour l'entraînement de LLMs légers distillés open source. L'approche distille Qwen2.5-72B-Instruct en modèles plus petits (0.5B, 1.5B, 3B, 7B) avec une rétention de performance forte.

Techniques clés

Distillation au niveau des logits : transfert de la distribution de sortie du maître vers l'étudiant
Alignement de représentation : alignement des états cachés entre les couches maître et étudiant
Curriculum de données : difficulté progressive dans la sélection des données d'entraînement
Entraînement multi-étapes : distillation de pré-entraînement → tuning d'instruction → alignement de préférence

Utilisation

Les modèles distillés sont disponibles sur HuggingFace en tant que distilqwen/distilqwen2.5-*-instruct et peuvent être utilisés directement :

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("distilqwen/distilqwen2.5-1.5b-instruct")
tokenizer = AutoTokenizer.from_pretrained("distilqwen/distilqwen2.5-1.5b-instruct")