Aperçu
Ollama exécute les LLMs localement avec une seule commande. Supporte Llama 3, Mistral, Gemma, Qwen 2.5, DeepSeek, Phi et 100+ modèles avec accélération GPU (CUDA/Metal), API compatible OpenAI et Modelfiles personnalisés pour la configuration.
Installation
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
Utilisation basique
ollama pull llama3.1:8b
ollama run llama3.1:8b "Explain quantum computing"
API Python
import openai
client = openai.OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
resp = client.chat.completions.create(
model="llama3.1:8b",
messages=[{"role": "user", "content": "What is ML?"}],
)
print(resp.choices[0].message.content)
Modelfile personnalisé
FROM llama3.1:8b
PARAMETER temperature 0.3
SYSTEM "You are a medical coding assistant."
ollama create my-coder -f Modelfile