Configuration AI Runway AKS
Cette skill guide les utilisateurs d'un cluster Kubernetes vierge jusqu'à un déploiement de modèle IA fonctionnel. Suivez chaque étape dans l'ordre, sauf si l'utilisateur fournit skip-to-step N pour reprendre à une phase spécifique.
Sensibilisation aux coûts : Les pools de nœuds GPU entraînent des frais de calcul importants (A100-80GB peut coûter 3–5+$/h). Confirmez que l'utilisateur comprend les implications financières avant de provisionner des ressources GPU.
Prérequis
Cette skill suppose qu'un cluster AKS existe déjà. Si l'utilisateur ne dispose pas de cluster, transférez d'abord vers la skill azure-kubernetes pour en provisionner un (avec un pool de nœuds GPU sauf si l'inférence CPU seule est acceptable), puis revenez ici.
Référence rapide
| Propriété | Valeur |
|---|---|
| Meilleur pour | Intégration complète d'AI Runway sur AKS |
| Outils CLI | kubectl, make, curl |
| Outils MCP | Aucun |
| Skills connexes | azure-kubernetes (configuration du cluster), azure-diagnostics (dépannage) |
Quand utiliser cette skill
Utilisez cette skill quand l'utilisateur souhaite :
- Configurer AI Runway sur un cluster AKS existant à partir de zéro
- Installer le contrôleur et les CRD d'AI Runway
- Évaluer la compatibilité matérielle GPU pour le déploiement de modèles
- Choisir et installer un fournisseur d'inférence (KAITO, Dynamo, KubeRay)
- Déployer son premier modèle IA sur AKS via AI Runway
- Reprendre une configuration d'AI Runway partiellement complétée à partir d'une étape spécifique
Outils MCP
Cette skill n'utilise aucun outil MCP. Toutes les opérations de cluster sont effectuées directement via kubectl et make.
Règles
- Exécutez les étapes en séquence — chargez la référence de chaque étape au fur et à mesure
- Rapportez l'état du cluster à chaque étape : ✓ sain, ✗ manquant/échoué
- Demandez la confirmation de l'utilisateur avant toute action d'installation ou de déploiement
- Si une étape est déjà complétée, rapportez le statut et passez à l'étape suivante
- Si l'utilisateur fournit
skip-to-step N, commencez à l'étape N ; supposez que les étapes antérieures sont complétées
Étapes
| # | Étape | Référence |
|---|---|---|
| 1 | Vérification du cluster — vérification du contexte, inventaire des nœuds, détection GPU | step-1-verify.md |
| 2 | Installation du contrôleur — déploiement CRD + contrôleur | step-2-controller.md |
| 3 | Évaluation GPU — détecter les modèles GPU, signaler les contraintes dtype/attention | step-3-gpu.md |
| 4 | Configuration du fournisseur — recommander et installer le fournisseur d'inférence | step-4-provider.md |
| 5 | Premier déploiement — choisir un modèle, déployer, vérifier Ready | step-5-deploy.md |
| 6 | Résumé — récapitulatif, test de fumée, prochaines étapes | step-6-summary.md |
Gestion des erreurs
| Erreur / Symptôme | Cause probable | Remédiation |
|---|---|---|
| Pas de contexte kubeconfig | Non connecté à un cluster | Exécutez az aks get-credentials ou équivalent |
| Contrôleur en CrashLoopBackOff | Problème de config ou RBAC | kubectl logs -n airunway-system -l control-plane=controller-manager --previous |
| Fournisseur non prêt | Problème de pull d'image ou RBAC | kubectl logs <pod-name> -n <namespace> pour le pod du fournisseur |
| ModelDeployment bloqué en Pending | Échec d'ordonnancement GPU ou fournisseur non prêt | kubectl describe modeldeployment <name> -n <namespace> événements |
Erreurs bfloat16 à l'inférence |
T4 ou V100 ne supporte pas bfloat16 | Ajoutez --dtype float16 aux arguments de serving |
Pour la gestion d'erreurs complète et les procédures de restauration, voir troubleshooting.md.