angelslim

Par mkurman · zorai

Tencent AngelSlim — une boîte à outils accessible, complète et efficace pour la compression de grands modèles. Quantification (FP8/INT4/NVFP4/1,25-bit), élagage, décodage spéculatif (Eagle3) et compression de modèles de diffusion.

npx skills add https://github.com/mkurman/zorai --skill angelslim

Aperçu

AngelSlim intègre les principaux algorithmes de compression dans un framework unifié avec un accès en un clic. Supporte la quantification FP8/INT8/INT4/NVFP4/1.25-bit, l'élagage, le décodage spéculatif Eagle3 et la compression de modèles de diffusion pour les LLMs, VLMs et modèles audio.

Installation

uv pip install angelslim

Quantification basique (PTQ)

import angelslim as slim

# FP8 static quantization
model = slim.quantize(model, dtype="fp8_static", qconfig="default")

# INT4 GPTQ
model = slim.quantize(model, dtype="int4_gptq", dataset="wikitext2")

Stratégies de compression

Méthode	Précision	Idéal pour
FP8-Static/Dynamic	8-bit	Déploiement LLM général
INT4 GPTQ/AWQ/GPTAQ	4-bit	Serving avec mémoire limitée
NVFP4	4-bit (NVIDIA)	GPUs Blackwell
Sherry	1.25-bit	Compression extrême
STQ1_0	1.25-bit	Déploiement embarqué

Décodage spéculatif (Eagle3)

# Train Eagle3 draft model
slim.eagle3.train(model, draft_model_config)

# Inference with Eagle3
output = model.generate_with_eagle3(input_ids, max_new_tokens=256)