Azure Kubernetes Service

GUIDE FAISANT AUTORITÉ — CONFORMITÉ OBLIGATOIRE

Cette compétence produit une configuration de cluster AKS recommandée basée sur les exigences de l'utilisateur, en distinguant les décisions Day-0 (mise en réseau, serveur API — difficiles à modifier ultérieurement) des fonctionnalités Day-1 (activables après création). Consultez la référence CLI pour les commandes.

Référence rapide

Propriété	Valeur
Idéal pour	Planification de cluster AKS et décisions Day-0
Outils MCP	`mcp_azure_mcp_aks`
CLI	`az aks create`, `az aks show`, `kubectl get`, `kubectl describe`
Compétences associées	azure-diagnostics (dépannage AKS), azure-validate (vérifications de préparation), azure-kubernetes-automatic-readiness (migration d'un cluster existant vers AKS Automatic)

Quand utiliser cette compétence

Activez cette compétence quand l'utilisateur souhaite :

Créer un nouveau cluster AKS
Planifier la configuration d'un cluster AKS pour des charges de travail de production
Concevoir la mise en réseau AKS (accès au serveur API, modèle IP de pod, sortie)
Configurer la gestion des identités et secrets AKS
Configurer la gouvernance AKS (Azure Policy, Deployment Safeguards)
Activer l'observabilité AKS (Container Insights, Managed Prometheus, Grafana)
Définir la stratégie de mise à niveau et de correctifs AKS
Comprendre les différences entre AKS Automatic et Standard SKU
Obtenir une liste de contrôle Day-0 pour la configuration initiale d'un cluster AKS

Règles

Commencez par les exigences de l'utilisateur concernant le provisionnement du calcul, la mise en réseau, la sécurité et autres paramètres.
Utilisez le serveur MCP azure et sélectionnez d'abord mcp_azure_mcp_aks pour découvrir les outils MCP spécifiques à AKS exposés par le client. Choisissez le plus petit outil AKS découvert qui correspond à la tâche, et ne basculez sur Azure CLI (az aks) que si la fonctionnalité requise n'est pas exposée par la surface MCP AKS.
Déterminez si AKS Automatic ou Standard SKU est plus approprié selon le besoin de l'utilisateur en matière de contrôle par rapport à la commodité. Préférez AKS Automatic par défaut, sauf si des personnalisations spécifiques sont requises.
Documentez les décisions et la justification des choix de configuration du cluster, en particulier pour les décisions Day-0 difficiles à modifier ultérieurement (mise en réseau, accès au serveur API).

Entrées requises (Ne demandez que ce qui est nécessaire)

Si l'utilisateur est incertain, utilisez les valeurs par défaut sûres.

Type d'environnement AKS : dev/test ou production
Région(s), zones de disponibilité, tailles de VM de nœud préférées
Échelle attendue (nombre de nœuds/clusters, taille des charges de travail)
Exigences de mise en réseau (accès au serveur API, modèle IP de pod, contrôle de l'entrée/sortie)
Exigences de sécurité et d'identité, y compris le registre d'images
Préférences de mise à niveau et d'observabilité
Contraintes de coûts

Flux de travail

1. Type de cluster

AKS Automatic (par défaut) : Idéal pour la plupart des charges de travail de production, offre une expérience sélectionnée avec les meilleures pratiques préconfigurées pour la sécurité, la fiabilité et les performances. À utiliser sauf si vous avez des besoins de personnalisation spécifiques pour la mise en réseau, l'autoscaling ou les configurations de pool de nœuds non supportées par Node Auto-Provisioning (NAP).
AKS Standard : À utiliser si vous avez besoin d'un contrôle total sur la configuration de l'environnement, ce qui nécessite des frais généraux supplémentaires pour la configuration et la gestion.

2. Mise en réseau (IP de pod, Sortie, Entrée, Plan de données)

Modèle IP de pod (Décision Day-0 clé) :

Azure CNI Overlay (recommandé) : les adresses IP de pod proviennent d'une plage d'overlay privée, non routables via VNet, se met à l'échelle dans les grands environnements et convient bien à la plupart des charges de travail
Azure CNI (routables par VNet) : les adresses IP de pod proviennent directement du VNet (sous-réseau de pod ou sous-réseau de nœud), à utiliser quand les pods doivent être directement adressables à partir du VNet ou sur site
- Documentation : https://learn.microsoft.com/azure/aks/azure-cni-overlay

Plan de données et stratégie réseau :

Azure CNI powered by Cilium (recommandé) : basé sur eBPF pour le traitement des paquets haute performance, les stratégies réseau et l'observabilité

Sortie :

Passerelle Egress statique pour des adresses IP sortantes stables et prévisibles
Pour une sortie restreinte : UDR + Azure Firewall ou NVA

Entrée :

Module complémentaire App Routing avec Gateway API — recommandé par défaut pour les charges de travail HTTP/HTTPS
Maille de service Istio avec Gateway API - pour la gestion avancée du trafic, mTLS, les versions canary
Application Gateway for Containers — pour l'équilibrage de charge L7 avec intégration WAF

DNS :

Activez LocalDNS sur tous les pools de nœuds pour une résolution DNS fiable et performante

3. Sécurité

Utilisez Microsoft Entra ID partout (plan de contrôle, Workload Identity pour les pods, accès aux nœuds). Évitez les credentials statiques.
Azure Key Vault via Secrets Store CSI Driver pour les secrets
Activez Azure Policy + Deployment Safeguards
Activez Encryption at rest pour etcd/serveur API ; in-transit pour la communication nœud-à-nœud
Autorisez uniquement les images signées approuvées par stratégie (Azure Policy + Ratify), préférez Azure Container Registry
Isolation : Utilisez les espaces de noms, les stratégies réseau, la journalisation scoped

4. Observabilité

Utilisez Managed Prometheus et Container Insights avec Grafana pour l'observabilité AKS (journaux + métriques).
Activez les paramètres de diagnostic pour collecter les journaux du plan de contrôle et les journaux d'audit dans un espace de travail Log Analytics pour la surveillance de la sécurité et le dépannage.
Pour les autres outils de surveillance et de dépannage, utilisez des fonctionnalités comme l'Agentic CLI pour AKS, Application Insights, Resource Health Center, les détecteurs AppLens et Azure Advisors.

5. Mises à niveau et correctifs

Configurez les fenêtres de maintenance pour un timing de mise à niveau contrôlé
Activez les mises à niveau automatiques pour le plan de contrôle et le système d'exploitation des nœuds pour rester à jour avec les correctifs de sécurité et les versions Kubernetes
Envisagez les versions LTS pour la stabilité en entreprise (support de 2 ans) en mettant à niveau votre environnement AKS vers le niveau Premium
Mises à niveau en flotte : Utilisez AKS Fleet Manager pour un déploiement échelonné entre les environnements de test et de production

6. Performance

Utilisez les disques OS éphémères (--node-osdisk-type Ephemeral) pour un démarrage des nœuds plus rapide
Sélectionnez Azure Linux comme système d'exploitation des nœuds (empreinte plus petite, démarrage plus rapide)
Activez KEDA pour l'autoscaling basé sur les événements au-delà de HPA

7. Pools de nœuds et calcul

Pool de nœuds système dédié : Au moins 2 nœuds, avec tainte pour les charges de travail système uniquement (CriticalAddonsOnly)
Activez Node Auto Provisioning (NAP) sur tous les pools pour les économies de coûts et la mise à l'échelle réactive
Utilisez les SKU de dernière génération (v5/v6) pour les optimisations au niveau de l'hôte
Évitez les VM de série B — les SKU burst causent des problèmes de performance/fiabilité
Utilisez des SKU avec au moins 4 vCPU pour les charges de travail de production
Définissez les contraintes de propagation de topologie pour distribuer les pods entre les hôtes/zones selon le SLO

8. Fiabilité

Déployez sur 3 zones de disponibilité (--zones 1 2 3)
Utilisez le niveau Standard pour un plan de contrôle redondant dans les zones + SLA de 99,95 % pour la disponibilité du serveur API
Activez Microsoft Defender for Containers pour la protection au runtime
Configurez les PodDisruptionBudgets pour toutes les charges de travail de production
Utilisez les contraintes de propagation de topologie pour assurer la distribution des pods dans les domaines de défaillance

9. Contrôles de coûts

Utilisez les pools de nœuds Spot pour les charges de travail batch/interruptibles (jusqu'à 90 % d'économies)
Arrêter/Démarrer les clusters dev/test : az aks stop/start
Envisagez les instances réservées ou les plans d'économies pour les charges de travail en état stable

Scénarios approfondis — chargez uniquement le fichier de référence pertinent :

Scénario	Mots-clés déclencheurs	Référence
Dimensionnement de pod	pods surprovisionnés, demandes CPU, demandes mémoire, optimiser les charges de travail	azure-aks-rightsizing.md
Configuration VPA	autoscaler vertical de pod, recommandations VPA, activation VPA	azure-aks-vpa.md
Autoscaler de cluster	nœuds inactifs, CAS désactivé, activation autoscaler, profil scale-down, utilisation de nœud	azure-aks-autoscaler.md
Pools de nœuds Spot	Spot VMs, nœuds Spot, charges de travail batch, nœuds moins chers	azure-aks-spot.md

Désambiguïsation : Si un message correspond à plusieurs lignes (par ex., « nœuds moins chers » pourrait suggérer à la fois Spot et l'autoscaler), préférez le match le plus spécifique. En cas d'ambiguïté, demandez à l'utilisateur de clarifier son intention avant de charger un fichier de référence.

Garde-fous / Sécurité

Ne demandez ni ne produisez de secrets (tokens, clés).
Ne demandez pas à l'utilisateur de coller les ID d'abonnement. Découvrez l'abonnement et la portée des ressources via les outils MCP (par ex., lister les abonnements, lister les groupes de ressources) ou az account show / az account list afin que l'agent puisse résoudre le contexte sans exposer les identifiants.
Si les exigences sont ambiguës pour les décisions critiques Day-0, posez des questions de clarification à l'utilisateur. Pour les fonctionnalités activées Day-1, proposez 2–3 options sûres avec leurs compromis et choisissez une valeur par défaut conservatrice.
Ne promettez pas un temps d'arrêt zéro ; conseillez les protections de charge de travail (PDB, sondes, répliques) et les mises à niveau échelonnées ainsi que les meilleures pratiques pour la fiabilité et la performance.

Outils MCP

Outil	Objectif	Paramètres clés
`mcp_azure_mcp_aks`	Point d'entrée MCP AKS utilisé pour découvrir les outils spécifiques à AKS exposés par le client	Découvrez d'abord l'outil AKS appelable, puis utilisez les paramètres de cet outil

Gestion des erreurs

Erreur / Symptôme	Cause probable	Remédiation
L'appel d'outil MCP échoue ou expire	Credentials invalides, abonnement ou contexte AKS	Vérifiez `az login`, confirmez le contexte d'abonnement actif avec `az account show`, et vérifiez le groupe de ressources cible sans renvoyer les identifiants d'abonnement à l'utilisateur
Quota dépassé	Limites régionales de vCPU ou de ressources	Demandez une augmentation de quota ou sélectionnez une région/SKU de VM différente
Conflit réseau (épuisement des IP)	Sous-réseau de pod trop petit pour overlay/CNI	Re-planifiez les plages d'adresses IP ; peut nécessiter une recréation du cluster (Day-0)
Workload Identity ne fonctionne pas	Émetteur OIDC manquant ou credential fédérée	Activez `--enable-oidc-issuer --enable-workload-identity`, configurez l'identité fédérée