Vue d'ensemble
La compression de modèle réduit la taille des LLM et le coût d'inférence par trois techniques principales : pruning (suppression de paramètres), knowledge distillation (entraînement de modèles étudiants plus petits) et quantization (poids en précision inférieure). Une étude 2025 sur Qwen2.5 3B a trouvé l'ordre optimal : Pruning → Knowledge Distillation → Quantization (P-KD-Q) réalise une compression 3,68x tout en préservant le suivi d'instructions et la compréhension du langage.
Les trois techniques
| Technique | Ce qu'elle fait | Compression | Impact qualité |
|---|---|---|---|
| Quantization | Précision inférieure (FP16→INT4/FP8) | Plus haute en isolé | Faible avec PTQ, récupérable avec QAT |
| Structured Pruning | Supprime têtes d'attention, couches, neurones | Modérée | Dégradation modérée, récupérable avec KD |
| Knowledge Distillation | Entraîne modèle plus petit sur sorties du modèle plus grand | Dépend de l'architecture | Meilleure récupération qualité post-pruning |
Ordre de compression (P-KD-Q)
L'article montre que l'ordre est critique :
- Pruner d'abord — supprime les paramètres redondants, créant une base plus petite
- Distiller — récupère la qualité en entraînant le modèle pruné sur les sorties du modèle original
- Quantizer en dernier — réduit la précision sur le modèle déjà optimisé
Appliquer la quantization tôt cause une perte d'information irréversible qui affecte l'entraînement ultérieur.
Toolkits disponibles
| Toolkit | Fonctionnalités | Cas d'usage |
|---|---|---|
angelslim (Tencent) |
PTQ/QAT, pruning, Eagle3 speculative decoding | Pipeline compression complet, 1,25-bit à FP8 |
nvidia-model-optimizer |
PTQ, QAT, pruning, distillation, speculative decoding | Écosystème NVIDIA, déploiement TensorRT-LLM |
intel-neural-compressor |
Quantization INT8/FP8/INT4, pruning, distillation | Matériel Intel, ONNX Runtime |
peft + unsloth |
Fine-tuning QLoRA | Efficacité temps d'entraînement, adapter-based |
Métriques d'évaluation
- Perplexity : qualité de modélisation du langage
- G-Eval / Clarity : qualité du suivi d'instructions
- Compression ratio : taille originale / taille compressée
- Inference speed : tokens/seconde
- Accuracy sur benchmarks : MMLU, GSM8K, HumanEval