Déployer un modèle
Point d'entrée unifié pour tous les workflows de déploiement de modèles Azure OpenAI. Analyse l'intention de l'utilisateur et l'achemine vers le mode de déploiement approprié.
Référence rapide
| Mode | Quand l'utiliser | Sub-Skill |
|---|---|---|
| Preset | Déploiement rapide, aucune personnalisation requise | preset/SKILL.md |
| Customize | Contrôle total : version, SKU, capacité, politique RAI | customize/SKILL.md |
| Capacity Discovery | Trouver où vous pouvez déployer avec une capacité spécifique | capacity/SKILL.md |
Détection d'intention
Analysez le prompt de l'utilisateur et acheminez-le vers le bon mode :
User Prompt
│
├─ Simple deployment (no modifiers)
│ "deploy gpt-4o", "set up a model"
│ └─> PRESET mode
│
├─ Customization keywords present
│ "custom settings", "choose version", "select SKU",
│ "set capacity to X", "configure content filter",
│ "PTU deployment", "with specific quota"
│ └─> CUSTOMIZE mode
│
├─ Capacity/availability query
│ "find where I can deploy", "check capacity",
│ "which region has X capacity", "best region for 10K TPM",
│ "where is this model available"
│ └─> CAPACITY DISCOVERY mode
│
└─ Ambiguous (has capacity target + deploy intent)
"deploy gpt-4o with 10K capacity to best region"
└─> CAPACITY DISCOVERY first → then PRESET or CUSTOMIZE
Règles d'acheminement
| Signal dans le prompt | Acheminer vers | Raison |
|---|---|---|
| Juste le nom du modèle, pas d'options | Preset | L'utilisateur veut un déploiement rapide |
| "custom", "configure", "choose", "select" | Customize | L'utilisateur veut le contrôle |
| "find", "check", "where", "which region", "available" | Capacity | L'utilisateur veut la découverte |
| Nombre de capacité spécifique + "best region" | Capacity → Preset | Découvrir puis déployer rapidement |
| Nombre de capacité spécifique + mots-clés "custom" | Capacity → Customize | Découvrir puis déployer avec options |
| "PTU", "provisioned throughput" | Customize | PTU nécessite la sélection du SKU |
| "optimal region", "best region" (pas de cible de capacité) | Preset | L'optimisation de région est la spécialité du preset |
Chaînage multi-mode
Certains prompts nécessitent deux modes en séquence :
Pattern : Capacity → Deploy Quand un utilisateur spécifie une exigence de capacité ET veut un déploiement :
- Exécutez Capacity Discovery pour trouver les régions/projets avec un quota suffisant
- Présentez les résultats à l'utilisateur
- Demandez : « Souhaitez-vous déployer avec les paramètres par défaut ou personnaliser les paramètres ? »
- Acheminement vers Preset ou Customize selon la réponse
💡 Conseil : Si vous ne savez pas quel mode l'utilisateur veut, par défaut Preset (déploiement rapide). Les utilisateurs qui veulent une personnalisation utiliseront généralement des mots-clés explicites comme "custom", "configure" ou "with specific settings".
Sélection de projet (tous les modes)
Avant tout déploiement, résolvez le projet sur lequel déployer. Ceci s'applique à tous les modes (preset, customize, et après la découverte de capacité).
Ordre de résolution
- Vérifier la variable d'environnement
PROJECT_RESOURCE_ID— si définie, l'utiliser comme défaut - Vérifier le prompt de l'utilisateur — si l'utilisateur a nommé un projet ou une région spécifique, l'utiliser
- Si aucun des deux — interroger les projets de l'utilisateur et suggérer le projet actuel
Étape de confirmation (obligatoire)
Confirmez toujours la cible avant de déployer. Montrez à l'utilisateur ce qui sera utilisé et donnez-lui la possibilité de le modifier :
Deploying to:
Project: <project-name>
Region: <region>
Resource: <resource-group>
Is this correct? Or choose a different project:
1. ✅ Yes, deploy here (default)
2. 📋 Show me other projects in this region
3. 🌍 Choose a different region
Si l'utilisateur choisit l'option 2, affichez les 5 meilleurs projets dans cette région :
Projects in <region>:
1. project-alpha (rg-alpha)
2. project-beta (rg-beta)
3. project-gamma (rg-gamma)
...
⚠️ Ne jamais déployer sans montrer à l'utilisateur quel projet sera utilisé. Cela prévient les déploiements accidentels sur la mauvaise ressource.
Validation pré-déploiement (tous les modes)
Avant de présenter des options de déploiement (SKU, capacité), validez toujours ces deux éléments :
-
Le modèle supporte le SKU — interroger le catalogue de modèles pour confirmer que le modèle+version sélectionné supporte le SKU cible :
az cognitiveservices model list --location <region> --subscription <sub-id> -o jsonFiltrer par modèle, extraire
.model.skus[].namepour obtenir les SKUs supportés. -
La souscription a du quota disponible — vérifier que la souscription de l'utilisateur a du quota non alloué pour la combinaison SKU+modèle :
az cognitiveservices usage list --location <region> --subscription <sub-id> -o jsonCorrespondre selon le motif de nom d'utilisation
OpenAI.<SKU>.<model-name>(ex. :OpenAI.GlobalStandard.gpt-4o). Calculeravailable = limit - currentValue.
⚠️ Avertissement : Ne présentez que les options qui passent les deux contrôles. N'affichage PAS des listes de SKU codées en dur — toujours interroger dynamiquement. Les SKUs avec 0 quota disponible doivent être affichés comme des éléments informationnels ❌, non sélectionnables.
💡 Gestion du quota : Pour les demandes d'augmentation de quota, la surveillance d'utilisation et le dépannage d'erreurs de quota, référez-vous à la skill quota au lieu de dupliquer ce guidance en ligne.
Prérequis
Tous les modes de déploiement nécessitent :
- Azure CLI installé et authentifié (
az login) - Souscription Azure active avec permissions de déploiement
- ID de ressource du projet Azure AI Foundry (ou l'agent vous aidera à la découvrir via la variable d'environnement
PROJECT_RESOURCE_ID)
Sub-Skills
- preset/SKILL.md — Déploiement rapide vers la région optimale avec des paramètres par défaut sensés
- customize/SKILL.md — Flux interactif guidé avec contrôle de configuration complet
- capacity/SKILL.md — Découvrir la capacité disponible dans les régions et projets