Modèles Locaux Hugging Face
Recherchez sur le Hub Hugging Face les dépôts GGUF compatibles avec llama.cpp, choisissez le bon quant, et lancez le modèle avec llama-cli ou llama-server.
Flux de Travail par Défaut
- Recherchez sur le Hub avec
apps=llama.cpp. - Ouvrez
https://huggingface.co/<repo>?local-app=llama.cpp. - Privilégiez l'extrait exact local-app HF et la recommandation de quant quand ils sont visibles.
- Confirmez les noms de fichiers
.ggufexacts avechttps://huggingface.co/api/models/<repo>/tree/main?recursive=true. - Lancez avec
llama-cli -hf <repo>:<QUANT>oullama-server -hf <repo>:<QUANT>. - Revenez à
--hf-repoplus--hf-filequand le dépôt utilise un nommage de fichier personnalisé. - Convertissez depuis les poids Transformers seulement si le dépôt n'expose pas déjà les fichiers GGUF.
Démarrage Rapide
Installer llama.cpp
brew install llama.cpp
winget install llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make
S'authentifier pour les dépôts protégés
hf auth login
Rechercher sur le Hub
https://huggingface.co/models?apps=llama.cpp&sort=trending
https://huggingface.co/models?search=Qwen3.6&apps=llama.cpp&sort=trending
https://huggingface.co/models?search=<term>&apps=llama.cpp&num_parameters=min:0,max:24B&sort=trending
Exécuter directement depuis le Hub
llama-cli -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M
llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M
Exécuter un fichier GGUF exact
llama-server \
--hf-repo unsloth/Qwen3.6-35B-A3B-GGUF \
--hf-file Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
-c 4096
Convertir seulement quand aucun GGUF n'est disponible
hf download <repo-without-gguf> --local-dir ./model-src
python convert_hf_to_gguf.py ./model-src \
--outfile model-f16.gguf \
--outtype f16
llama-quantize model-f16.gguf model-q4_k_m.gguf Q4_K_M
Test de fumée d'un serveur local
llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer no-key" \
-d '{
"messages": [
{"role": "user", "content": "Write a limerick about exception handling"}
]
}'
Choix du Quant
- Privilégiez le quant exact que HF marque comme compatible sur la page
?local-app=llama.cpp. - Conservez les étiquettes natives du dépôt telles que
UD-Q4_K_Mau lieu de les normaliser. - Passez par défaut à
Q4_K_Msauf si la page du dépôt ou le profil matériel suggère autre chose. - Privilégiez
Q5_K_MouQ6_Kpour les charges de travail de code ou techniques quand la mémoire le permet. - Envisagez
Q3_K_M,Q4_K_S, ou des variantesIQ/UD-*spécifiques au dépôt pour des budgets de RAM ou VRAM plus serrés. - Traitez les fichiers
mmproj-*.ggufcomme des poids de projecteur, non comme le point de contrôle principal.
Références de Chargement
- Lisez hub-discovery.md pour les flux de travail basés sur les URL, la recherche de modèles, l'extraction d'API arborescente, et la reconstruction de commandes.
- Lisez quantization.md pour les tableaux de formats, la mise à l'échelle des modèles, les compromis de qualité, et
imatrix. - Lisez hardware.md pour les détails de construction et d'accélération Metal, CUDA, ROCm, ou CPU.
Ressources
- llama.cpp:
https://github.com/ggml-org/llama.cpp - Documentation Hugging Face GGUF + llama.cpp:
https://huggingface.co/docs/hub/gguf-llamacpp - Documentation Hugging Face Local Apps:
https://huggingface.co/docs/hub/main/local-apps - Documentation Hugging Face Local Agents:
https://huggingface.co/docs/hub/agents-local - Space de conversion GGUF:
https://huggingface.co/spaces/ggml-org/gguf-my-repo