Déployer un modèle

Point d'entrée unifié pour tous les workflows de déploiement de modèles Azure OpenAI. Analyse l'intention de l'utilisateur et l'achemine vers le mode de déploiement approprié.

Référence rapide

Mode	Quand l'utiliser	Sub-Skill
Preset	Déploiement rapide, aucune personnalisation requise	preset/SKILL.md
Customize	Contrôle total : version, SKU, capacité, politique RAI	customize/SKILL.md
Capacity Discovery	Trouver où vous pouvez déployer avec une capacité spécifique	capacity/SKILL.md

Détection d'intention

Analysez le prompt de l'utilisateur et acheminez-le vers le bon mode :

User Prompt
    │
    ├─ Simple deployment (no modifiers)
    │  "deploy gpt-4o", "set up a model"
    │  └─> PRESET mode
    │
    ├─ Customization keywords present
    │  "custom settings", "choose version", "select SKU",
    │  "set capacity to X", "configure content filter",
    │  "PTU deployment", "with specific quota"
    │  └─> CUSTOMIZE mode
    │
    ├─ Capacity/availability query
    │  "find where I can deploy", "check capacity",
    │  "which region has X capacity", "best region for 10K TPM",
    │  "where is this model available"
    │  └─> CAPACITY DISCOVERY mode
    │
    └─ Ambiguous (has capacity target + deploy intent)
       "deploy gpt-4o with 10K capacity to best region"
       └─> CAPACITY DISCOVERY first → then PRESET or CUSTOMIZE

Règles d'acheminement

Signal dans le prompt	Acheminer vers	Raison
Juste le nom du modèle, pas d'options	Preset	L'utilisateur veut un déploiement rapide
"custom", "configure", "choose", "select"	Customize	L'utilisateur veut le contrôle
"find", "check", "where", "which region", "available"	Capacity	L'utilisateur veut la découverte
Nombre de capacité spécifique + "best region"	Capacity → Preset	Découvrir puis déployer rapidement
Nombre de capacité spécifique + mots-clés "custom"	Capacity → Customize	Découvrir puis déployer avec options
"PTU", "provisioned throughput"	Customize	PTU nécessite la sélection du SKU
"optimal region", "best region" (pas de cible de capacité)	Preset	L'optimisation de région est la spécialité du preset

Chaînage multi-mode

Certains prompts nécessitent deux modes en séquence :

Pattern : Capacity → Deploy Quand un utilisateur spécifie une exigence de capacité ET veut un déploiement :

Exécutez Capacity Discovery pour trouver les régions/projets avec un quota suffisant
Présentez les résultats à l'utilisateur
Demandez : « Souhaitez-vous déployer avec les paramètres par défaut ou personnaliser les paramètres ? »
Acheminement vers Preset ou Customize selon la réponse

💡 Conseil : Si vous ne savez pas quel mode l'utilisateur veut, par défaut Preset (déploiement rapide). Les utilisateurs qui veulent une personnalisation utiliseront généralement des mots-clés explicites comme "custom", "configure" ou "with specific settings".

Sélection de projet (tous les modes)

Avant tout déploiement, résolvez le projet sur lequel déployer. Ceci s'applique à tous les modes (preset, customize, et après la découverte de capacité).

Ordre de résolution

Vérifier la variable d'environnement PROJECT_RESOURCE_ID — si définie, l'utiliser comme défaut
Vérifier le prompt de l'utilisateur — si l'utilisateur a nommé un projet ou une région spécifique, l'utiliser
Si aucun des deux — interroger les projets de l'utilisateur et suggérer le projet actuel

Étape de confirmation (obligatoire)

Confirmez toujours la cible avant de déployer. Montrez à l'utilisateur ce qui sera utilisé et donnez-lui la possibilité de le modifier :

Deploying to:
  Project:  <project-name>
  Region:   <region>
  Resource: <resource-group>

Is this correct? Or choose a different project:
  1. ✅ Yes, deploy here (default)
  2. 📋 Show me other projects in this region
  3. 🌍 Choose a different region

Si l'utilisateur choisit l'option 2, affichez les 5 meilleurs projets dans cette région :

Projects in <region>:
  1. project-alpha (rg-alpha)
  2. project-beta (rg-beta)
  3. project-gamma (rg-gamma)
  ...

⚠️ Ne jamais déployer sans montrer à l'utilisateur quel projet sera utilisé. Cela prévient les déploiements accidentels sur la mauvaise ressource.

Validation pré-déploiement (tous les modes)

Avant de présenter des options de déploiement (SKU, capacité), validez toujours ces deux éléments :

Le modèle supporte le SKU — interroger le catalogue de modèles pour confirmer que le modèle+version sélectionné supporte le SKU cible :
```
az cognitiveservices model list --location <region> --subscription <sub-id> -o json
```
Filtrer par modèle, extraire .model.skus[].name pour obtenir les SKUs supportés.
La souscription a du quota disponible — vérifier que la souscription de l'utilisateur a du quota non alloué pour la combinaison SKU+modèle :
```
az cognitiveservices usage list --location <region> --subscription <sub-id> -o json
```
Correspondre selon le motif de nom d'utilisation OpenAI.<SKU>.<model-name> (ex. : OpenAI.GlobalStandard.gpt-4o). Calculer available = limit - currentValue.

⚠️ Avertissement : Ne présentez que les options qui passent les deux contrôles. N'affichage PAS des listes de SKU codées en dur — toujours interroger dynamiquement. Les SKUs avec 0 quota disponible doivent être affichés comme des éléments informationnels ❌, non sélectionnables.

💡 Gestion du quota : Pour les demandes d'augmentation de quota, la surveillance d'utilisation et le dépannage d'erreurs de quota, référez-vous à la skill quota au lieu de dupliquer ce guidance en ligne.

Prérequis

Tous les modes de déploiement nécessitent :

Azure CLI installé et authentifié (az login)
Souscription Azure active avec permissions de déploiement
ID de ressource du projet Azure AI Foundry (ou l'agent vous aidera à la découvrir via la variable d'environnement PROJECT_RESOURCE_ID)

Sub-Skills

preset/SKILL.md — Déploiement rapide vers la région optimale avec des paramètres par défaut sensés
customize/SKILL.md — Flux interactif guidé avec contrôle de configuration complet
capacity/SKILL.md — Découvrir la capacité disponible dans les régions et projets

deploy-model