Déployer un modèle

Point d'entrée unifié pour tous les flux de travail de déploiement de modèles Azure OpenAI. Analyse l'intention de l'utilisateur et l'achemine vers le mode de déploiement approprié.

Référence rapide

Mode	Quand l'utiliser	Sous-compétence
Preset	Déploiement rapide, aucune personnalisation nécessaire	preset/SKILL.md
Customize	Contrôle total : version, SKU, capacité, politique RAI	customize/SKILL.md
Capacity Discovery	Trouver où vous pouvez déployer avec une capacité spécifique	capacity/SKILL.md

Détection d'intention

Analysez l'invite de l'utilisateur et acheminez-la vers le mode correct :

Invite utilisateur
    │
    ├─ Déploiement simple (sans modificateurs)
    │  "deploy gpt-4o", "set up a model"
    │  └─> Mode PRESET
    │
    ├─ Mots-clés de personnalisation présents
    │  "custom settings", "choose version", "select SKU",
    │  "set capacity to X", "configure content filter",
    │  "PTU deployment", "with specific quota"
    │  └─> Mode CUSTOMIZE
    │
    ├─ Requête de capacité/disponibilité
    │  "find where I can deploy", "check capacity",
    │  "which region has X capacity", "best region for 10K TPM",
    │  "where is this model available"
    │  └─> Mode CAPACITY DISCOVERY
    │
    └─ Ambiguë (a une cible de capacité + intention de déployer)
       "deploy gpt-4o with 10K capacity to best region"
       └─> CAPACITY DISCOVERY d'abord → puis PRESET ou CUSTOMIZE

Règles d'acheminement

Signal dans l'invite	Acheminer vers	Raison
Juste le nom du modèle, pas d'options	Preset	L'utilisateur veut un déploiement rapide
"custom", "configure", "choose", "select"	Customize	L'utilisateur veut du contrôle
"find", "check", "where", "which region", "available"	Capacity	L'utilisateur veut la découverte
Nombre de capacité spécifique + "best region"	Capacity → Preset	Découvrir puis déployer rapidement
Nombre de capacité spécifique + mots-clés "custom"	Capacity → Customize	Découvrir puis déployer avec options
"PTU", "provisioned throughput"	Customize	PTU nécessite la sélection du SKU
"optimal region", "best region" (pas de cible de capacité)	Preset	L'optimisation de région est la spécialité du preset

Chaînage multi-mode

Certaines invites nécessitent deux modes en séquence :

Modèle : Capacity → Deploy Quand un utilisateur spécifie une exigence de capacité ET veut un déploiement :

Exécutez Capacity Discovery pour trouver les régions/projets avec un quota suffisant
Présentez les résultats à l'utilisateur
Demandez : « Voulez-vous déployer avec les paramètres par défaut rapides ou personnaliser les paramètres ? »
Acheminez vers Preset ou Customize en fonction de la réponse

? Conseil : En cas de doute sur le mode que l'utilisateur souhaite, optez par défaut pour Preset (déploiement rapide). Les utilisateurs qui veulent de la personnalisation utiliseront généralement des mots-clés explicites comme "custom", "configure", ou "with specific settings".

Sélection du projet (tous les modes)

Avant tout déploiement, résolvez le projet vers lequel déployer. Ceci s'applique à tous les modes (preset, customize, et après la découverte de capacité).

Ordre de résolution

Vérifier la variable d'environnement PROJECT_RESOURCE_ID — si elle est définie, l'utiliser comme valeur par défaut
Vérifier l'invite utilisateur — si l'utilisateur a nommé un projet ou une région spécifique, l'utiliser
Sinon — interroger les projets de l'utilisateur et suggérer le projet actuel

Étape de confirmation (obligatoire)

Toujours confirmer la cible avant de déployer. Montrez à l'utilisateur ce qui sera utilisé et donnez-lui la possibilité de le modifier :

Déploiement vers :
  Projet :  <project-name>
  Région :  <region>
  Ressource : <resource-group>

Est-ce correct ? Ou choisir un projet différent :
  1. ✅ Oui, déployer ici (par défaut)
  2. ? Montrez-moi d'autres projets dans cette région
  3. ? Choisir une région différente

Si l'utilisateur choisit l'option 2, afficher les 5 premiers projets de cette région :

Projets dans <region> :
  1. project-alpha (rg-alpha)
  2. project-beta (rg-beta)
  3. project-gamma (rg-gamma)
  ...

⚠️ Ne jamais déployer sans montrer à l'utilisateur le projet qui sera utilisé. Ceci prévient les déploiements accidentels vers la mauvaise ressource.

Validation avant déploiement (tous les modes)

Avant de présenter des options de déploiement (SKU, capacité), validez toujours ces deux points :

Le modèle supporte le SKU — interroger le catalogue de modèles pour confirmer que le modèle+version sélectionné supporte le SKU cible :
```
az cognitiveservices model list --location <region> --subscription <sub-id> -o json
```
Filtrer le modèle, extraire .model.skus[].name pour obtenir les SKU supportés.
L'abonnement a un quota disponible — vérifier que l'abonnement de l'utilisateur a un quota non alloué pour la combinaison SKU+modèle :
```
az cognitiveservices usage list --location <region> --subscription <sub-id> -o json
```
Faire correspondre le modèle de nom d'utilisation OpenAI.<SKU>.<model-name> (par ex., OpenAI.GlobalStandard.gpt-4o). Calculer available = limit - currentValue.

⚠️ Avertissement : Présentez uniquement les options qui passent les deux vérifications. NE PAS afficher des listes de SKU codées en dur — toujours interroger dynamiquement. Les SKU avec un quota disponible de 0 doivent être affichés comme éléments ❌ informationnels, pas comme options sélectionnables.

? Gestion du quota : Pour les demandes d'augmentation de quota, la surveillance de l'utilisation et le dépannage des erreurs de quota, reportez-vous à la compétence quota au lieu de dupliquer ces conseils en ligne.

Prérequis

Tous les modes de déploiement nécessitent :

Azure CLI installé et authentifié (az login)
Un abonnement Azure actif avec les autorisations de déploiement
Un ID de ressource de projet Azure AI Foundry (ou l'agent aidera à le découvrir via la variable d'environnement PROJECT_RESOURCE_ID)

Sous-compétences

preset/SKILL.md — Déploiement rapide vers la région optimale avec des paramètres par défaut judicieux
customize/SKILL.md — Flux guidé interactif avec contrôle de configuration complet
capacity/SKILL.md — Découvrir la capacité disponible dans les régions et les projets