airunway-aks-setup

Configurez AI Runway sur AKS — du cluster nu au modèle en production. Couvre la vérification du cluster, l'installation du contrôleur, l'évaluation GPU, la configuration du provider et le premier déploiement. QUAND : « setup AI Runway », « onboard AKS cluster », « install AI Runway », « airunway setup », « deploy model to AKS », « GPU inference on AKS », « KAITO setup on AKS », « run LLM on AKS », « vLLM on AKS », « set up model serving on AKS », « AI Runway controller ».

npx skills add https://github.com/microsoft/skills --skill airunway-aks-setup

Configuration AI Runway AKS

Cette skill guide les utilisateurs d'un cluster Kubernetes vierge jusqu'à un déploiement de modèle IA fonctionnel. Suivez chaque étape dans l'ordre, sauf si l'utilisateur fournit skip-to-step N pour reprendre à une phase spécifique.

Sensibilisation aux coûts : Les pools de nœuds GPU entraînent des frais de calcul importants (A100-80GB peut coûter 3–5+$/h). Confirmez que l'utilisateur comprend les implications financières avant de provisionner des ressources GPU.

Prérequis

Cette skill suppose qu'un cluster AKS existe déjà. Si l'utilisateur ne dispose pas de cluster, transférez d'abord vers la skill azure-kubernetes pour en provisionner un (avec un pool de nœuds GPU sauf si l'inférence CPU seule est acceptable), puis revenez ici.

Référence rapide

Propriété Valeur
Meilleur pour Intégration complète d'AI Runway sur AKS
Outils CLI kubectl, make, curl
Outils MCP Aucun
Skills connexes azure-kubernetes (configuration du cluster), azure-diagnostics (dépannage)

Quand utiliser cette skill

Utilisez cette skill quand l'utilisateur souhaite :

  • Configurer AI Runway sur un cluster AKS existant à partir de zéro
  • Installer le contrôleur et les CRD d'AI Runway
  • Évaluer la compatibilité matérielle GPU pour le déploiement de modèles
  • Choisir et installer un fournisseur d'inférence (KAITO, Dynamo, KubeRay)
  • Déployer son premier modèle IA sur AKS via AI Runway
  • Reprendre une configuration d'AI Runway partiellement complétée à partir d'une étape spécifique

Outils MCP

Cette skill n'utilise aucun outil MCP. Toutes les opérations de cluster sont effectuées directement via kubectl et make.

Règles

  1. Exécutez les étapes en séquence — chargez la référence de chaque étape au fur et à mesure
  2. Rapportez l'état du cluster à chaque étape : ✓ sain, ✗ manquant/échoué
  3. Demandez la confirmation de l'utilisateur avant toute action d'installation ou de déploiement
  4. Si une étape est déjà complétée, rapportez le statut et passez à l'étape suivante
  5. Si l'utilisateur fournit skip-to-step N, commencez à l'étape N ; supposez que les étapes antérieures sont complétées

Étapes

# Étape Référence
1 Vérification du cluster — vérification du contexte, inventaire des nœuds, détection GPU step-1-verify.md
2 Installation du contrôleur — déploiement CRD + contrôleur step-2-controller.md
3 Évaluation GPU — détecter les modèles GPU, signaler les contraintes dtype/attention step-3-gpu.md
4 Configuration du fournisseur — recommander et installer le fournisseur d'inférence step-4-provider.md
5 Premier déploiement — choisir un modèle, déployer, vérifier Ready step-5-deploy.md
6 Résumé — récapitulatif, test de fumée, prochaines étapes step-6-summary.md

Gestion des erreurs

Erreur / Symptôme Cause probable Remédiation
Pas de contexte kubeconfig Non connecté à un cluster Exécutez az aks get-credentials ou équivalent
Contrôleur en CrashLoopBackOff Problème de config ou RBAC kubectl logs -n airunway-system -l control-plane=controller-manager --previous
Fournisseur non prêt Problème de pull d'image ou RBAC kubectl logs <pod-name> -n <namespace> pour le pod du fournisseur
ModelDeployment bloqué en Pending Échec d'ordonnancement GPU ou fournisseur non prêt kubectl describe modeldeployment <name> -n <namespace> événements
Erreurs bfloat16 à l'inférence T4 ou V100 ne supporte pas bfloat16 Ajoutez --dtype float16 aux arguments de serving

Pour la gestion d'erreurs complète et les procédures de restauration, voir troubleshooting.md.

Skills similaires