Modèles Hugging Face locaux

Recherchez sur le Hub Hugging Face des repos GGUF compatibles avec llama.cpp, choisissez le bon quant, et lancez le modèle avec llama-cli ou llama-server.

Flux de travail par défaut

Recherchez sur le Hub avec apps=llama.cpp.
Ouvrez https://huggingface.co/<repo>?local-app=llama.cpp.
Préférez l'extrait exact local-app HF et la recommandation de quant lorsqu'ils sont visibles.
Confirmez les noms exacts de fichiers .gguf avec https://huggingface.co/api/models/<repo>/tree/main?recursive=true.
Lancez avec llama-cli -hf <repo>:<QUANT> ou llama-server -hf <repo>:<QUANT>.
Basculez sur --hf-repo plus --hf-file quand le repo utilise un nommage de fichier personnalisé.
Convertissez à partir des poids Transformers seulement si le repo n'expose pas déjà de fichiers GGUF.

Démarrage rapide

Installer llama.cpp

brew install llama.cpp
winget install llama.cpp

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make

S'authentifier pour les repos gérés

hf auth login

Rechercher sur le Hub

https://huggingface.co/models?apps=llama.cpp&sort=trending
https://huggingface.co/models?search=Qwen3.6&apps=llama.cpp&sort=trending
https://huggingface.co/models?search=<term>&apps=llama.cpp&num_parameters=min:0,max:24B&sort=trending

Exécuter directement depuis le Hub

llama-cli -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M
llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M

Exécuter un fichier GGUF exact

llama-server \
    --hf-repo unsloth/Qwen3.6-35B-A3B-GGUF \
    --hf-file Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
    -c 4096

Convertir seulement quand aucun GGUF n'est disponible

hf download <repo-without-gguf> --local-dir ./model-src
python convert_hf_to_gguf.py ./model-src \
    --outfile model-f16.gguf \
    --outtype f16
llama-quantize model-f16.gguf model-q4_k_m.gguf Q4_K_M

Test de fumée d'un serveur local

llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M

curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer no-key" \
  -d '{
    "messages": [
      {"role": "user", "content": "Write a limerick about exception handling"}
    ]
  }'

Choix du quant

Préférez le quant exact que HF marque comme compatible sur la page ?local-app=llama.cpp.
Conservez les labels natifs du repo comme UD-Q4_K_M au lieu de les normaliser.
Par défaut, utilisez Q4_K_M sauf si la page du repo ou le profil matériel suggère le contraire.
Préférez Q5_K_M ou Q6_K pour les charges de travail de code ou techniques quand la mémoire le permet.
Envisagez Q3_K_M, Q4_K_S, ou les variantes IQ / UD-* spécifiques au repo pour des budgets RAM ou VRAM plus serrés.
Traitez les fichiers mmproj-*.gguf comme des poids de projecteur, non comme le checkpoint principal.

Références de chargement

Lisez hub-discovery.md pour les flux de travail basés sur les URL, la recherche de modèles, l'extraction d'API tree, et la reconstruction de commandes.
Lisez quantization.md pour les tableaux de formats, la mise à l'échelle des modèles, les compromis de qualité, et imatrix.
Lisez hardware.md pour les détails de build et d'accélération Metal, CUDA, ROCm, ou CPU.

Ressources

llama.cpp : https://github.com/ggml-org/llama.cpp
Docs Hugging Face GGUF + llama.cpp : https://huggingface.co/docs/hub/gguf-llamacpp
Docs Hugging Face Local Apps : https://huggingface.co/docs/hub/main/local-apps
Docs Hugging Face Local Agents : https://huggingface.co/docs/hub/agents-local
Space convertisseur GGUF : https://huggingface.co/spaces/ggml-org/gguf-my-repo

huggingface-local-models

Modèles Hugging Face locaux

Flux de travail par défaut

Démarrage rapide

Installer llama.cpp

S'authentifier pour les repos gérés

Rechercher sur le Hub

Exécuter directement depuis le Hub

Exécuter un fichier GGUF exact

Convertir seulement quand aucun GGUF n'est disponible

Test de fumée d'un serveur local

Choix du quant

Références de chargement

Ressources

Skills similaires