Déployer un modèle
Point d'entrée unifié pour tous les flux de travail de déploiement de modèles Azure OpenAI. Analyse l'intention de l'utilisateur et l'achemine vers le mode de déploiement approprié.
Référence rapide
| Mode | Quand l'utiliser | Sous-compétence |
|---|---|---|
| Preset | Déploiement rapide, aucune personnalisation nécessaire | preset/SKILL.md |
| Customize | Contrôle total : version, SKU, capacité, politique RAI | customize/SKILL.md |
| Capacity Discovery | Trouver où vous pouvez déployer avec une capacité spécifique | capacity/SKILL.md |
Détection d'intention
Analysez l'invite de l'utilisateur et acheminez-la vers le mode correct :
Invite utilisateur
│
├─ Déploiement simple (sans modificateurs)
│ "deploy gpt-4o", "set up a model"
│ └─> Mode PRESET
│
├─ Mots-clés de personnalisation présents
│ "custom settings", "choose version", "select SKU",
│ "set capacity to X", "configure content filter",
│ "PTU deployment", "with specific quota"
│ └─> Mode CUSTOMIZE
│
├─ Requête de capacité/disponibilité
│ "find where I can deploy", "check capacity",
│ "which region has X capacity", "best region for 10K TPM",
│ "where is this model available"
│ └─> Mode CAPACITY DISCOVERY
│
└─ Ambiguë (a une cible de capacité + intention de déployer)
"deploy gpt-4o with 10K capacity to best region"
└─> CAPACITY DISCOVERY d'abord → puis PRESET ou CUSTOMIZE
Règles d'acheminement
| Signal dans l'invite | Acheminer vers | Raison |
|---|---|---|
| Juste le nom du modèle, pas d'options | Preset | L'utilisateur veut un déploiement rapide |
| "custom", "configure", "choose", "select" | Customize | L'utilisateur veut du contrôle |
| "find", "check", "where", "which region", "available" | Capacity | L'utilisateur veut la découverte |
| Nombre de capacité spécifique + "best region" | Capacity → Preset | Découvrir puis déployer rapidement |
| Nombre de capacité spécifique + mots-clés "custom" | Capacity → Customize | Découvrir puis déployer avec options |
| "PTU", "provisioned throughput" | Customize | PTU nécessite la sélection du SKU |
| "optimal region", "best region" (pas de cible de capacité) | Preset | L'optimisation de région est la spécialité du preset |
Chaînage multi-mode
Certaines invites nécessitent deux modes en séquence :
Modèle : Capacity → Deploy Quand un utilisateur spécifie une exigence de capacité ET veut un déploiement :
- Exécutez Capacity Discovery pour trouver les régions/projets avec un quota suffisant
- Présentez les résultats à l'utilisateur
- Demandez : « Voulez-vous déployer avec les paramètres par défaut rapides ou personnaliser les paramètres ? »
- Acheminez vers Preset ou Customize en fonction de la réponse
? Conseil : En cas de doute sur le mode que l'utilisateur souhaite, optez par défaut pour Preset (déploiement rapide). Les utilisateurs qui veulent de la personnalisation utiliseront généralement des mots-clés explicites comme "custom", "configure", ou "with specific settings".
Sélection du projet (tous les modes)
Avant tout déploiement, résolvez le projet vers lequel déployer. Ceci s'applique à tous les modes (preset, customize, et après la découverte de capacité).
Ordre de résolution
- Vérifier la variable d'environnement
PROJECT_RESOURCE_ID— si elle est définie, l'utiliser comme valeur par défaut - Vérifier l'invite utilisateur — si l'utilisateur a nommé un projet ou une région spécifique, l'utiliser
- Sinon — interroger les projets de l'utilisateur et suggérer le projet actuel
Étape de confirmation (obligatoire)
Toujours confirmer la cible avant de déployer. Montrez à l'utilisateur ce qui sera utilisé et donnez-lui la possibilité de le modifier :
Déploiement vers :
Projet : <project-name>
Région : <region>
Ressource : <resource-group>
Est-ce correct ? Ou choisir un projet différent :
1. ✅ Oui, déployer ici (par défaut)
2. ? Montrez-moi d'autres projets dans cette région
3. ? Choisir une région différente
Si l'utilisateur choisit l'option 2, afficher les 5 premiers projets de cette région :
Projets dans <region> :
1. project-alpha (rg-alpha)
2. project-beta (rg-beta)
3. project-gamma (rg-gamma)
...
⚠️ Ne jamais déployer sans montrer à l'utilisateur le projet qui sera utilisé. Ceci prévient les déploiements accidentels vers la mauvaise ressource.
Validation avant déploiement (tous les modes)
Avant de présenter des options de déploiement (SKU, capacité), validez toujours ces deux points :
-
Le modèle supporte le SKU — interroger le catalogue de modèles pour confirmer que le modèle+version sélectionné supporte le SKU cible :
az cognitiveservices model list --location <region> --subscription <sub-id> -o jsonFiltrer le modèle, extraire
.model.skus[].namepour obtenir les SKU supportés. -
L'abonnement a un quota disponible — vérifier que l'abonnement de l'utilisateur a un quota non alloué pour la combinaison SKU+modèle :
az cognitiveservices usage list --location <region> --subscription <sub-id> -o jsonFaire correspondre le modèle de nom d'utilisation
OpenAI.<SKU>.<model-name>(par ex.,OpenAI.GlobalStandard.gpt-4o). Calculeravailable = limit - currentValue.
⚠️ Avertissement : Présentez uniquement les options qui passent les deux vérifications. NE PAS afficher des listes de SKU codées en dur — toujours interroger dynamiquement. Les SKU avec un quota disponible de 0 doivent être affichés comme éléments ❌ informationnels, pas comme options sélectionnables.
? Gestion du quota : Pour les demandes d'augmentation de quota, la surveillance de l'utilisation et le dépannage des erreurs de quota, reportez-vous à la compétence quota au lieu de dupliquer ces conseils en ligne.
Prérequis
Tous les modes de déploiement nécessitent :
- Azure CLI installé et authentifié (
az login) - Un abonnement Azure actif avec les autorisations de déploiement
- Un ID de ressource de projet Azure AI Foundry (ou l'agent aidera à le découvrir via la variable d'environnement
PROJECT_RESOURCE_ID)
Sous-compétences
- preset/SKILL.md — Déploiement rapide vers la région optimale avec des paramètres par défaut judicieux
- customize/SKILL.md — Flux guidé interactif avec contrôle de configuration complet
- capacity/SKILL.md — Découvrir la capacité disponible dans les régions et les projets