deploy-model

Compétence unifiée de déploiement de modèles Azure OpenAI avec routage intelligent basé sur l'intention. Gère les déploiements rapides par préréglage, les déploiements entièrement personnalisés (version/SKU/capacité/politique RAI) et la découverte de capacité dans les régions et projets. UTILISER POUR : déployer un modèle, déployer gpt, créer un déploiement, déploiement de modèle, déployer un modèle openai, configurer un modèle, provisionner un modèle, trouver de la capacité, vérifier la disponibilité d'un modèle, où puis-je déployer, meilleure région pour un modèle, analyse de capacité. NE PAS UTILISER POUR : lister les déploiements existants (utiliser l'outil MCP foundry_models_deployments_list), supprimer des déploiements, créer des agents (utiliser agent/create), créer des projets (utiliser project/create).

npx skills add https://github.com/microsoft/skills --skill deploy-model

Déployer un modèle

Point d'entrée unifié pour tous les workflows de déploiement de modèles Azure OpenAI. Analyse l'intention de l'utilisateur et l'achemine vers le mode de déploiement approprié.

Référence rapide

Mode Quand l'utiliser Sub-Skill
Preset Déploiement rapide, aucune personnalisation requise preset/SKILL.md
Customize Contrôle total : version, SKU, capacité, politique RAI customize/SKILL.md
Capacity Discovery Trouver où vous pouvez déployer avec une capacité spécifique capacity/SKILL.md

Détection d'intention

Analysez le prompt de l'utilisateur et acheminez-le vers le bon mode :

User Prompt
    │
    ├─ Simple deployment (no modifiers)
    │  "deploy gpt-4o", "set up a model"
    │  └─> PRESET mode
    │
    ├─ Customization keywords present
    │  "custom settings", "choose version", "select SKU",
    │  "set capacity to X", "configure content filter",
    │  "PTU deployment", "with specific quota"
    │  └─> CUSTOMIZE mode
    │
    ├─ Capacity/availability query
    │  "find where I can deploy", "check capacity",
    │  "which region has X capacity", "best region for 10K TPM",
    │  "where is this model available"
    │  └─> CAPACITY DISCOVERY mode
    │
    └─ Ambiguous (has capacity target + deploy intent)
       "deploy gpt-4o with 10K capacity to best region"
       └─> CAPACITY DISCOVERY first → then PRESET or CUSTOMIZE

Règles d'acheminement

Signal dans le prompt Acheminer vers Raison
Juste le nom du modèle, pas d'options Preset L'utilisateur veut un déploiement rapide
"custom", "configure", "choose", "select" Customize L'utilisateur veut le contrôle
"find", "check", "where", "which region", "available" Capacity L'utilisateur veut la découverte
Nombre de capacité spécifique + "best region" Capacity → Preset Découvrir puis déployer rapidement
Nombre de capacité spécifique + mots-clés "custom" Capacity → Customize Découvrir puis déployer avec options
"PTU", "provisioned throughput" Customize PTU nécessite la sélection du SKU
"optimal region", "best region" (pas de cible de capacité) Preset L'optimisation de région est la spécialité du preset

Chaînage multi-mode

Certains prompts nécessitent deux modes en séquence :

Pattern : Capacity → Deploy Quand un utilisateur spécifie une exigence de capacité ET veut un déploiement :

  1. Exécutez Capacity Discovery pour trouver les régions/projets avec un quota suffisant
  2. Présentez les résultats à l'utilisateur
  3. Demandez : « Souhaitez-vous déployer avec les paramètres par défaut ou personnaliser les paramètres ? »
  4. Acheminement vers Preset ou Customize selon la réponse

💡 Conseil : Si vous ne savez pas quel mode l'utilisateur veut, par défaut Preset (déploiement rapide). Les utilisateurs qui veulent une personnalisation utiliseront généralement des mots-clés explicites comme "custom", "configure" ou "with specific settings".

Sélection de projet (tous les modes)

Avant tout déploiement, résolvez le projet sur lequel déployer. Ceci s'applique à tous les modes (preset, customize, et après la découverte de capacité).

Ordre de résolution

  1. Vérifier la variable d'environnement PROJECT_RESOURCE_ID — si définie, l'utiliser comme défaut
  2. Vérifier le prompt de l'utilisateur — si l'utilisateur a nommé un projet ou une région spécifique, l'utiliser
  3. Si aucun des deux — interroger les projets de l'utilisateur et suggérer le projet actuel

Étape de confirmation (obligatoire)

Confirmez toujours la cible avant de déployer. Montrez à l'utilisateur ce qui sera utilisé et donnez-lui la possibilité de le modifier :

Deploying to:
  Project:  <project-name>
  Region:   <region>
  Resource: <resource-group>

Is this correct? Or choose a different project:
  1. ✅ Yes, deploy here (default)
  2. 📋 Show me other projects in this region
  3. 🌍 Choose a different region

Si l'utilisateur choisit l'option 2, affichez les 5 meilleurs projets dans cette région :

Projects in <region>:
  1. project-alpha (rg-alpha)
  2. project-beta (rg-beta)
  3. project-gamma (rg-gamma)
  ...

⚠️ Ne jamais déployer sans montrer à l'utilisateur quel projet sera utilisé. Cela prévient les déploiements accidentels sur la mauvaise ressource.

Validation pré-déploiement (tous les modes)

Avant de présenter des options de déploiement (SKU, capacité), validez toujours ces deux éléments :

  1. Le modèle supporte le SKU — interroger le catalogue de modèles pour confirmer que le modèle+version sélectionné supporte le SKU cible :

    az cognitiveservices model list --location <region> --subscription <sub-id> -o json

    Filtrer par modèle, extraire .model.skus[].name pour obtenir les SKUs supportés.

  2. La souscription a du quota disponible — vérifier que la souscription de l'utilisateur a du quota non alloué pour la combinaison SKU+modèle :

    az cognitiveservices usage list --location <region> --subscription <sub-id> -o json

    Correspondre selon le motif de nom d'utilisation OpenAI.<SKU>.<model-name> (ex. : OpenAI.GlobalStandard.gpt-4o). Calculer available = limit - currentValue.

⚠️ Avertissement : Ne présentez que les options qui passent les deux contrôles. N'affichage PAS des listes de SKU codées en dur — toujours interroger dynamiquement. Les SKUs avec 0 quota disponible doivent être affichés comme des éléments informationnels ❌, non sélectionnables.

💡 Gestion du quota : Pour les demandes d'augmentation de quota, la surveillance d'utilisation et le dépannage d'erreurs de quota, référez-vous à la skill quota au lieu de dupliquer ce guidance en ligne.

Prérequis

Tous les modes de déploiement nécessitent :

  • Azure CLI installé et authentifié (az login)
  • Souscription Azure active avec permissions de déploiement
  • ID de ressource du projet Azure AI Foundry (ou l'agent vous aidera à la découvrir via la variable d'environnement PROJECT_RESOURCE_ID)

Sub-Skills

  • preset/SKILL.md — Déploiement rapide vers la région optimale avec des paramètres par défaut sensés
  • customize/SKILL.md — Flux interactif guidé avec contrôle de configuration complet
  • capacity/SKILL.md — Découvrir la capacité disponible dans les régions et projets

Skills similaires