Configuration AI Runway AKS

Cette skill guide les utilisateurs d'un cluster Kubernetes vierge jusqu'à un déploiement de modèle IA fonctionnel. Suivez chaque étape dans l'ordre, sauf si l'utilisateur fournit skip-to-step N pour reprendre à une phase spécifique.

Sensibilisation aux coûts : Les pools de nœuds GPU entraînent des frais de calcul importants (A100-80GB peut coûter 3–5+$/h). Confirmez que l'utilisateur comprend les implications financières avant de provisionner des ressources GPU.

Prérequis

Cette skill suppose qu'un cluster AKS existe déjà. Si l'utilisateur ne dispose pas de cluster, transférez d'abord vers la skill azure-kubernetes pour en provisionner un (avec un pool de nœuds GPU sauf si l'inférence CPU seule est acceptable), puis revenez ici.

Référence rapide

Propriété	Valeur
Meilleur pour	Intégration complète d'AI Runway sur AKS
Outils CLI	`kubectl`, `make`, `curl`
Outils MCP	Aucun
Skills connexes	`azure-kubernetes` (configuration du cluster), `azure-diagnostics` (dépannage)

Quand utiliser cette skill

Utilisez cette skill quand l'utilisateur souhaite :

Configurer AI Runway sur un cluster AKS existant à partir de zéro
Installer le contrôleur et les CRD d'AI Runway
Évaluer la compatibilité matérielle GPU pour le déploiement de modèles
Choisir et installer un fournisseur d'inférence (KAITO, Dynamo, KubeRay)
Déployer son premier modèle IA sur AKS via AI Runway
Reprendre une configuration d'AI Runway partiellement complétée à partir d'une étape spécifique

Outils MCP

Cette skill n'utilise aucun outil MCP. Toutes les opérations de cluster sont effectuées directement via kubectl et make.

Règles

Exécutez les étapes en séquence — chargez la référence de chaque étape au fur et à mesure
Rapportez l'état du cluster à chaque étape : ✓ sain, ✗ manquant/échoué
Demandez la confirmation de l'utilisateur avant toute action d'installation ou de déploiement
Si une étape est déjà complétée, rapportez le statut et passez à l'étape suivante
Si l'utilisateur fournit skip-to-step N, commencez à l'étape N ; supposez que les étapes antérieures sont complétées

Étapes

#	Étape	Référence
1	Vérification du cluster — vérification du contexte, inventaire des nœuds, détection GPU	step-1-verify.md
2	Installation du contrôleur — déploiement CRD + contrôleur	step-2-controller.md
3	Évaluation GPU — détecter les modèles GPU, signaler les contraintes dtype/attention	step-3-gpu.md
4	Configuration du fournisseur — recommander et installer le fournisseur d'inférence	step-4-provider.md
5	Premier déploiement — choisir un modèle, déployer, vérifier Ready	step-5-deploy.md
6	Résumé — récapitulatif, test de fumée, prochaines étapes	step-6-summary.md

Gestion des erreurs

Erreur / Symptôme	Cause probable	Remédiation
Pas de contexte kubeconfig	Non connecté à un cluster	Exécutez `az aks get-credentials` ou équivalent
Contrôleur en CrashLoopBackOff	Problème de config ou RBAC	`kubectl logs -n airunway-system -l control-plane=controller-manager --previous`
Fournisseur non prêt	Problème de pull d'image ou RBAC	`kubectl logs <pod-name> -n <namespace>` pour le pod du fournisseur
ModelDeployment bloqué en Pending	Échec d'ordonnancement GPU ou fournisseur non prêt	`kubectl describe modeldeployment <name> -n <namespace>` événements
Erreurs `bfloat16` à l'inférence	T4 ou V100 ne supporte pas bfloat16	Ajoutez `--dtype float16` aux arguments de serving

Pour la gestion d'erreurs complète et les procédures de restauration, voir troubleshooting.md.

airunway-aks-setup