Compression de LLM : pruning, distillation et quantization

Vue d'ensemble

La compression de modèle réduit la taille des LLM et le coût d'inférence par trois techniques principales : pruning (suppression de paramètres), knowledge distillation (entraînement de modèles étudiants plus petits) et quantization (poids en précision inférieure). Une étude 2025 sur Qwen2.5 3B a trouvé l'ordre optimal : Pruning → Knowledge Distillation → Quantization (P-KD-Q) réalise une compression 3,68x tout en préservant le suivi d'instructions et la compréhension du langage.

Les trois techniques

Technique	Ce qu'elle fait	Compression	Impact qualité
Quantization	Précision inférieure (FP16→INT4/FP8)	Plus haute en isolé	Faible avec PTQ, récupérable avec QAT
Structured Pruning	Supprime têtes d'attention, couches, neurones	Modérée	Dégradation modérée, récupérable avec KD
Knowledge Distillation	Entraîne modèle plus petit sur sorties du modèle plus grand	Dépend de l'architecture	Meilleure récupération qualité post-pruning

Ordre de compression (P-KD-Q)

L'article montre que l'ordre est critique :

Pruner d'abord — supprime les paramètres redondants, créant une base plus petite
Distiller — récupère la qualité en entraînant le modèle pruné sur les sorties du modèle original
Quantizer en dernier — réduit la précision sur le modèle déjà optimisé

Appliquer la quantization tôt cause une perte d'information irréversible qui affecte l'entraînement ultérieur.

Toolkits disponibles

Toolkit	Fonctionnalités	Cas d'usage
`angelslim` (Tencent)	PTQ/QAT, pruning, Eagle3 speculative decoding	Pipeline compression complet, 1,25-bit à FP8
`nvidia-model-optimizer`	PTQ, QAT, pruning, distillation, speculative decoding	Écosystème NVIDIA, déploiement TensorRT-LLM
`intel-neural-compressor`	Quantization INT8/FP8/INT4, pruning, distillation	Matériel Intel, ONNX Runtime
`peft` + `unsloth`	Fine-tuning QLoRA	Efficacité temps d'entraînement, adapter-based

Métriques d'évaluation

Perplexity : qualité de modélisation du langage
G-Eval / Clarity : qualité du suivi d'instructions
Compression ratio : taille originale / taille compressée
Inference speed : tokens/seconde
Accuracy sur benchmarks : MMLU, GSM8K, HumanEval

model-compression

Vue d'ensemble

Les trois techniques

Ordre de compression (P-KD-Q)

Toolkits disponibles

Métriques d'évaluation

Skills similaires