Modèles Hugging Face locaux
Recherchez sur le Hub Hugging Face des repos GGUF compatibles avec llama.cpp, choisissez le bon quant, et lancez le modèle avec llama-cli ou llama-server.
Flux de travail par défaut
- Recherchez sur le Hub avec
apps=llama.cpp. - Ouvrez
https://huggingface.co/<repo>?local-app=llama.cpp. - Préférez l'extrait exact local-app HF et la recommandation de quant lorsqu'ils sont visibles.
- Confirmez les noms exacts de fichiers
.ggufavechttps://huggingface.co/api/models/<repo>/tree/main?recursive=true. - Lancez avec
llama-cli -hf <repo>:<QUANT>oullama-server -hf <repo>:<QUANT>. - Basculez sur
--hf-repoplus--hf-filequand le repo utilise un nommage de fichier personnalisé. - Convertissez à partir des poids Transformers seulement si le repo n'expose pas déjà de fichiers GGUF.
Démarrage rapide
Installer llama.cpp
brew install llama.cpp
winget install llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make
S'authentifier pour les repos gérés
hf auth login
Rechercher sur le Hub
https://huggingface.co/models?apps=llama.cpp&sort=trending
https://huggingface.co/models?search=Qwen3.6&apps=llama.cpp&sort=trending
https://huggingface.co/models?search=<term>&apps=llama.cpp&num_parameters=min:0,max:24B&sort=trending
Exécuter directement depuis le Hub
llama-cli -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M
llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M
Exécuter un fichier GGUF exact
llama-server \
--hf-repo unsloth/Qwen3.6-35B-A3B-GGUF \
--hf-file Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
-c 4096
Convertir seulement quand aucun GGUF n'est disponible
hf download <repo-without-gguf> --local-dir ./model-src
python convert_hf_to_gguf.py ./model-src \
--outfile model-f16.gguf \
--outtype f16
llama-quantize model-f16.gguf model-q4_k_m.gguf Q4_K_M
Test de fumée d'un serveur local
llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer no-key" \
-d '{
"messages": [
{"role": "user", "content": "Write a limerick about exception handling"}
]
}'
Choix du quant
- Préférez le quant exact que HF marque comme compatible sur la page
?local-app=llama.cpp. - Conservez les labels natifs du repo comme
UD-Q4_K_Mau lieu de les normaliser. - Par défaut, utilisez
Q4_K_Msauf si la page du repo ou le profil matériel suggère le contraire. - Préférez
Q5_K_MouQ6_Kpour les charges de travail de code ou techniques quand la mémoire le permet. - Envisagez
Q3_K_M,Q4_K_S, ou les variantesIQ/UD-*spécifiques au repo pour des budgets RAM ou VRAM plus serrés. - Traitez les fichiers
mmproj-*.ggufcomme des poids de projecteur, non comme le checkpoint principal.
Références de chargement
- Lisez hub-discovery.md pour les flux de travail basés sur les URL, la recherche de modèles, l'extraction d'API tree, et la reconstruction de commandes.
- Lisez quantization.md pour les tableaux de formats, la mise à l'échelle des modèles, les compromis de qualité, et
imatrix. - Lisez hardware.md pour les détails de build et d'accélération Metal, CUDA, ROCm, ou CPU.
Ressources
- llama.cpp :
https://github.com/ggml-org/llama.cpp - Docs Hugging Face GGUF + llama.cpp :
https://huggingface.co/docs/hub/gguf-llamacpp - Docs Hugging Face Local Apps :
https://huggingface.co/docs/hub/main/local-apps - Docs Hugging Face Local Agents :
https://huggingface.co/docs/hub/agents-local - Space convertisseur GGUF :
https://huggingface.co/spaces/ggml-org/gguf-my-repo