deploy-model

--- Compétence unifiée de déploiement de modèle Azure OpenAI avec routage intelligent basé sur l'intention. Gère les déploiements présélectionnés rapides, les déploiements entièrement personnalisés (version/SKU/capacité/politique RAI) et la découverte de capacité entre les régions et les projets. UTILISER POUR : déployer le modèle, déployer gpt, créer un déploiement, déploiement de modèle, déployer le modèle openai, configurer le modèle, approvisionner le modèle, trouver la capacité, vérifier la disponibilité du modèle, où puis-je déployer, meilleure région pour le modèle, analyse de capacité. NE PAS UTILISER POUR : lister les déploiements existants (utiliser l'outil MCP foundry_models_deployments_list), supprimer les déploiements, création d'agent (utiliser agent/create), création de projet (utiliser project/create).

npx skills add https://github.com/microsoft/skills --skill deploy-model

Déployer un modèle

Point d'entrée unifié pour tous les flux de travail de déploiement de modèles Azure OpenAI. Analyse l'intention de l'utilisateur et l'achemine vers le mode de déploiement approprié.

Référence rapide

Mode Quand l'utiliser Sous-compétence
Preset Déploiement rapide, aucune personnalisation nécessaire preset/SKILL.md
Customize Contrôle total : version, SKU, capacité, politique RAI customize/SKILL.md
Capacity Discovery Trouver où vous pouvez déployer avec une capacité spécifique capacity/SKILL.md

Détection d'intention

Analysez l'invite de l'utilisateur et acheminez-la vers le mode correct :

Invite utilisateur
    │
    ├─ Déploiement simple (sans modificateurs)
    │  "deploy gpt-4o", "set up a model"
    │  └─> Mode PRESET
    │
    ├─ Mots-clés de personnalisation présents
    │  "custom settings", "choose version", "select SKU",
    │  "set capacity to X", "configure content filter",
    │  "PTU deployment", "with specific quota"
    │  └─> Mode CUSTOMIZE
    │
    ├─ Requête de capacité/disponibilité
    │  "find where I can deploy", "check capacity",
    │  "which region has X capacity", "best region for 10K TPM",
    │  "where is this model available"
    │  └─> Mode CAPACITY DISCOVERY
    │
    └─ Ambiguë (a une cible de capacité + intention de déployer)
       "deploy gpt-4o with 10K capacity to best region"
       └─> CAPACITY DISCOVERY d'abord → puis PRESET ou CUSTOMIZE

Règles d'acheminement

Signal dans l'invite Acheminer vers Raison
Juste le nom du modèle, pas d'options Preset L'utilisateur veut un déploiement rapide
"custom", "configure", "choose", "select" Customize L'utilisateur veut du contrôle
"find", "check", "where", "which region", "available" Capacity L'utilisateur veut la découverte
Nombre de capacité spécifique + "best region" Capacity → Preset Découvrir puis déployer rapidement
Nombre de capacité spécifique + mots-clés "custom" Capacity → Customize Découvrir puis déployer avec options
"PTU", "provisioned throughput" Customize PTU nécessite la sélection du SKU
"optimal region", "best region" (pas de cible de capacité) Preset L'optimisation de région est la spécialité du preset

Chaînage multi-mode

Certaines invites nécessitent deux modes en séquence :

Modèle : Capacity → Deploy Quand un utilisateur spécifie une exigence de capacité ET veut un déploiement :

  1. Exécutez Capacity Discovery pour trouver les régions/projets avec un quota suffisant
  2. Présentez les résultats à l'utilisateur
  3. Demandez : « Voulez-vous déployer avec les paramètres par défaut rapides ou personnaliser les paramètres ? »
  4. Acheminez vers Preset ou Customize en fonction de la réponse

? Conseil : En cas de doute sur le mode que l'utilisateur souhaite, optez par défaut pour Preset (déploiement rapide). Les utilisateurs qui veulent de la personnalisation utiliseront généralement des mots-clés explicites comme "custom", "configure", ou "with specific settings".

Sélection du projet (tous les modes)

Avant tout déploiement, résolvez le projet vers lequel déployer. Ceci s'applique à tous les modes (preset, customize, et après la découverte de capacité).

Ordre de résolution

  1. Vérifier la variable d'environnement PROJECT_RESOURCE_ID — si elle est définie, l'utiliser comme valeur par défaut
  2. Vérifier l'invite utilisateur — si l'utilisateur a nommé un projet ou une région spécifique, l'utiliser
  3. Sinon — interroger les projets de l'utilisateur et suggérer le projet actuel

Étape de confirmation (obligatoire)

Toujours confirmer la cible avant de déployer. Montrez à l'utilisateur ce qui sera utilisé et donnez-lui la possibilité de le modifier :

Déploiement vers :
  Projet :  <project-name>
  Région :  <region>
  Ressource : <resource-group>

Est-ce correct ? Ou choisir un projet différent :
  1. ✅ Oui, déployer ici (par défaut)
  2. ? Montrez-moi d'autres projets dans cette région
  3. ? Choisir une région différente

Si l'utilisateur choisit l'option 2, afficher les 5 premiers projets de cette région :

Projets dans <region> :
  1. project-alpha (rg-alpha)
  2. project-beta (rg-beta)
  3. project-gamma (rg-gamma)
  ...

⚠️ Ne jamais déployer sans montrer à l'utilisateur le projet qui sera utilisé. Ceci prévient les déploiements accidentels vers la mauvaise ressource.

Validation avant déploiement (tous les modes)

Avant de présenter des options de déploiement (SKU, capacité), validez toujours ces deux points :

  1. Le modèle supporte le SKU — interroger le catalogue de modèles pour confirmer que le modèle+version sélectionné supporte le SKU cible :

    az cognitiveservices model list --location <region> --subscription <sub-id> -o json

    Filtrer le modèle, extraire .model.skus[].name pour obtenir les SKU supportés.

  2. L'abonnement a un quota disponible — vérifier que l'abonnement de l'utilisateur a un quota non alloué pour la combinaison SKU+modèle :

    az cognitiveservices usage list --location <region> --subscription <sub-id> -o json

    Faire correspondre le modèle de nom d'utilisation OpenAI.<SKU>.<model-name> (par ex., OpenAI.GlobalStandard.gpt-4o). Calculer available = limit - currentValue.

⚠️ Avertissement : Présentez uniquement les options qui passent les deux vérifications. NE PAS afficher des listes de SKU codées en dur — toujours interroger dynamiquement. Les SKU avec un quota disponible de 0 doivent être affichés comme éléments ❌ informationnels, pas comme options sélectionnables.

? Gestion du quota : Pour les demandes d'augmentation de quota, la surveillance de l'utilisation et le dépannage des erreurs de quota, reportez-vous à la compétence quota au lieu de dupliquer ces conseils en ligne.

Prérequis

Tous les modes de déploiement nécessitent :

  • Azure CLI installé et authentifié (az login)
  • Un abonnement Azure actif avec les autorisations de déploiement
  • Un ID de ressource de projet Azure AI Foundry (ou l'agent aidera à le découvrir via la variable d'environnement PROJECT_RESOURCE_ID)

Sous-compétences

  • preset/SKILL.md — Déploiement rapide vers la région optimale avec des paramètres par défaut judicieux
  • customize/SKILL.md — Flux guidé interactif avec contrôle de configuration complet
  • capacity/SKILL.md — Découvrir la capacité disponible dans les régions et les projets