Aperçu
AngelSlim intègre les principaux algorithmes de compression dans un framework unifié avec un accès en un clic. Supporte la quantification FP8/INT8/INT4/NVFP4/1.25-bit, l'élagage, le décodage spéculatif Eagle3 et la compression de modèles de diffusion pour les LLMs, VLMs et modèles audio.
Installation
uv pip install angelslim
Quantification basique (PTQ)
import angelslim as slim
# FP8 static quantization
model = slim.quantize(model, dtype="fp8_static", qconfig="default")
# INT4 GPTQ
model = slim.quantize(model, dtype="int4_gptq", dataset="wikitext2")
Stratégies de compression
| Méthode | Précision | Idéal pour |
|---|---|---|
| FP8-Static/Dynamic | 8-bit | Déploiement LLM général |
| INT4 GPTQ/AWQ/GPTAQ | 4-bit | Serving avec mémoire limitée |
| NVFP4 | 4-bit (NVIDIA) | GPUs Blackwell |
| Sherry | 1.25-bit | Compression extrême |
| STQ1_0 | 1.25-bit | Déploiement embarqué |
Décodage spéculatif (Eagle3)
# Train Eagle3 draft model
slim.eagle3.train(model, draft_model_config)
# Inference with Eagle3
output = model.generate_with_eagle3(input_ids, max_new_tokens=256)