Aperçu
DistilQwen2.5 (Alibaba, arXiv:2504.15027) fournit des pratiques industrielles pour l'entraînement de LLMs légers distillés open source. L'approche distille Qwen2.5-72B-Instruct en modèles plus petits (0.5B, 1.5B, 3B, 7B) avec une rétention de performance forte.
Techniques clés
- Distillation au niveau des logits : transfert de la distribution de sortie du maître vers l'étudiant
- Alignement de représentation : alignement des états cachés entre les couches maître et étudiant
- Curriculum de données : difficulté progressive dans la sélection des données d'entraînement
- Entraînement multi-étapes : distillation de pré-entraînement → tuning d'instruction → alignement de préférence
Utilisation
Les modèles distillés sont disponibles sur HuggingFace en tant que distilqwen/distilqwen2.5-*-instruct et peuvent être utilisés directement :
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("distilqwen/distilqwen2.5-1.5b-instruct")
tokenizer = AutoTokenizer.from_pretrained("distilqwen/distilqwen2.5-1.5b-instruct")