huggingface-local-models

Utilisé pour sélectionner les modèles à exécuter localement avec llama.cpp et GGUF sur CPU, Mac Metal, CUDA ou ROCm. Couvre la recherche de GGUF, la sélection de quantifications, l'exécution de serveurs, la recherche exacte de fichiers GGUF, la conversion et le service local compatible OpenAI.

npx skills add https://github.com/huggingface/skills --skill huggingface-local-models

Modèles Locaux Hugging Face

Recherchez sur le Hub Hugging Face les dépôts GGUF compatibles avec llama.cpp, choisissez le bon quant, et lancez le modèle avec llama-cli ou llama-server.

Flux de Travail par Défaut

  1. Recherchez sur le Hub avec apps=llama.cpp.
  2. Ouvrez https://huggingface.co/<repo>?local-app=llama.cpp.
  3. Privilégiez l'extrait exact local-app HF et la recommandation de quant quand ils sont visibles.
  4. Confirmez les noms de fichiers .gguf exacts avec https://huggingface.co/api/models/<repo>/tree/main?recursive=true.
  5. Lancez avec llama-cli -hf <repo>:<QUANT> ou llama-server -hf <repo>:<QUANT>.
  6. Revenez à --hf-repo plus --hf-file quand le dépôt utilise un nommage de fichier personnalisé.
  7. Convertissez depuis les poids Transformers seulement si le dépôt n'expose pas déjà les fichiers GGUF.

Démarrage Rapide

Installer llama.cpp

brew install llama.cpp
winget install llama.cpp
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
make

S'authentifier pour les dépôts protégés

hf auth login

Rechercher sur le Hub

https://huggingface.co/models?apps=llama.cpp&sort=trending
https://huggingface.co/models?search=Qwen3.6&apps=llama.cpp&sort=trending
https://huggingface.co/models?search=<term>&apps=llama.cpp&num_parameters=min:0,max:24B&sort=trending

Exécuter directement depuis le Hub

llama-cli -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M
llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M

Exécuter un fichier GGUF exact

llama-server \
    --hf-repo unsloth/Qwen3.6-35B-A3B-GGUF \
    --hf-file Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
    -c 4096

Convertir seulement quand aucun GGUF n'est disponible

hf download <repo-without-gguf> --local-dir ./model-src
python convert_hf_to_gguf.py ./model-src \
    --outfile model-f16.gguf \
    --outtype f16
llama-quantize model-f16.gguf model-q4_k_m.gguf Q4_K_M

Test de fumée d'un serveur local

llama-server -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_M
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer no-key" \
  -d '{
    "messages": [
      {"role": "user", "content": "Write a limerick about exception handling"}
    ]
  }'

Choix du Quant

  • Privilégiez le quant exact que HF marque comme compatible sur la page ?local-app=llama.cpp.
  • Conservez les étiquettes natives du dépôt telles que UD-Q4_K_M au lieu de les normaliser.
  • Passez par défaut à Q4_K_M sauf si la page du dépôt ou le profil matériel suggère autre chose.
  • Privilégiez Q5_K_M ou Q6_K pour les charges de travail de code ou techniques quand la mémoire le permet.
  • Envisagez Q3_K_M, Q4_K_S, ou des variantes IQ / UD-* spécifiques au dépôt pour des budgets de RAM ou VRAM plus serrés.
  • Traitez les fichiers mmproj-*.gguf comme des poids de projecteur, non comme le point de contrôle principal.

Références de Chargement

  • Lisez hub-discovery.md pour les flux de travail basés sur les URL, la recherche de modèles, l'extraction d'API arborescente, et la reconstruction de commandes.
  • Lisez quantization.md pour les tableaux de formats, la mise à l'échelle des modèles, les compromis de qualité, et imatrix.
  • Lisez hardware.md pour les détails de construction et d'accélération Metal, CUDA, ROCm, ou CPU.

Ressources

  • llama.cpp: https://github.com/ggml-org/llama.cpp
  • Documentation Hugging Face GGUF + llama.cpp: https://huggingface.co/docs/hub/gguf-llamacpp
  • Documentation Hugging Face Local Apps: https://huggingface.co/docs/hub/main/local-apps
  • Documentation Hugging Face Local Agents: https://huggingface.co/docs/hub/agents-local
  • Space de conversion GGUF: https://huggingface.co/spaces/ggml-org/gguf-my-repo