model-compression

Par mkurman · zorai

Techniques de compression de modèles : élagage, distillation de connaissances et quantification. Couvre l'ordre de compression (P-KD-Q), les outils et les métriques d'évaluation.

npx skills add https://github.com/mkurman/zorai --skill model-compression

Vue d'ensemble

La compression de modèle réduit la taille des LLM et le coût d'inférence par trois techniques principales : pruning (suppression de paramètres), knowledge distillation (entraînement de modèles étudiants plus petits) et quantization (poids en précision inférieure). Une étude 2025 sur Qwen2.5 3B a trouvé l'ordre optimal : Pruning → Knowledge Distillation → Quantization (P-KD-Q) réalise une compression 3,68x tout en préservant le suivi d'instructions et la compréhension du langage.

Les trois techniques

Technique Ce qu'elle fait Compression Impact qualité
Quantization Précision inférieure (FP16→INT4/FP8) Plus haute en isolé Faible avec PTQ, récupérable avec QAT
Structured Pruning Supprime têtes d'attention, couches, neurones Modérée Dégradation modérée, récupérable avec KD
Knowledge Distillation Entraîne modèle plus petit sur sorties du modèle plus grand Dépend de l'architecture Meilleure récupération qualité post-pruning

Ordre de compression (P-KD-Q)

L'article montre que l'ordre est critique :

  1. Pruner d'abord — supprime les paramètres redondants, créant une base plus petite
  2. Distiller — récupère la qualité en entraînant le modèle pruné sur les sorties du modèle original
  3. Quantizer en dernier — réduit la précision sur le modèle déjà optimisé

Appliquer la quantization tôt cause une perte d'information irréversible qui affecte l'entraînement ultérieur.

Toolkits disponibles

Toolkit Fonctionnalités Cas d'usage
angelslim (Tencent) PTQ/QAT, pruning, Eagle3 speculative decoding Pipeline compression complet, 1,25-bit à FP8
nvidia-model-optimizer PTQ, QAT, pruning, distillation, speculative decoding Écosystème NVIDIA, déploiement TensorRT-LLM
intel-neural-compressor Quantization INT8/FP8/INT4, pruning, distillation Matériel Intel, ONNX Runtime
peft + unsloth Fine-tuning QLoRA Efficacité temps d'entraînement, adapter-based

Métriques d'évaluation

  • Perplexity : qualité de modélisation du langage
  • G-Eval / Clarity : qualité du suivi d'instructions
  • Compression ratio : taille originale / taille compressée
  • Inference speed : tokens/seconde
  • Accuracy sur benchmarks : MMLU, GSM8K, HumanEval

Skills similaires