azure-diagnostics

--- Déboguer les problèmes de production Azure sur Azure en utilisant AppLens, Azure Monitor, resource health et triage sécurisé. QUAND : déboguer les problèmes de production, dépanner les applications conteneurisées, dépanner les fonctions, dépanner AKS, kubectl ne peut pas se connecter, défaillances kube-system/CoreDNS, pod en attente, crashloop, nœud non prêt, défaillances de mise à niveau, analyser les journaux, KQL, insights, défaillances d'extraction d'image, problèmes de démarrage à froid, défaillances de sonde de santé, resource health, cause première des erreurs.

npx skills add https://github.com/microsoft/skills --skill azure-diagnostics

Diagnostics Azure

GUIDANCE FAISANT AUTORITÉ — CONFORMITÉ OBLIGATOIRE

Ce document est la source officielle pour déboguer et dépanner les problèmes de production Azure. Suivez ces instructions pour diagnostiquer et résoudre systématiquement les problèmes courants des services Azure.

Déclencheurs

Activez cette compétence lorsque l'utilisateur souhaite :

  • Déboguer ou dépanner les problèmes de production
  • Diagnostiquer les erreurs dans les services Azure
  • Analyser les journaux d'application ou les métriques
  • Corriger les problèmes de tirage d'image, de démarrage à froid ou de sonde de santé
  • Investiguer les raisons pour lesquelles les ressources Azure échouent
  • Trouver la cause racine des erreurs d'application
  • Dépanner les Function Apps Azure (échecs d'invocation, dépassements de délai, erreurs de liaison)
  • Trouver l'espace de travail App Insights ou Log Analytics lié à une Function App
  • Dépanner les clusters AKS, les nœuds, les pods, l'ingress ou les problèmes de mise en réseau Kubernetes

Règles

  1. Commencer par un flux de diagnostic systématique
  2. Utiliser AppLens (MCP) pour les diagnostics alimentés par IA lorsqu'il est disponible
  3. Vérifier l'état de santé des ressources avant d'approfondir les journaux
  4. Sélectionner le guide de dépannage approprié en fonction du type de service
  5. Documenter les conclusions et les étapes de correction tentées
  6. Acheminer les incidents AKS vers le document de dépannage AKS dédié

Flux de diagnostic rapide

  1. Identifier les symptômes - Qu'est-ce qui échoue ?
  2. Vérifier l'état de santé des ressources - Azure est-il en bonne santé ?
  3. Examiner les journaux - Qu'affichent les journaux ?
  4. Analyser les métriques - Modèles de performance ?
  5. Investiguer les modifications récentes - Qu'a changé ?

Guides de dépannage par service

Service Problèmes courants Référence
Container Apps Échecs de tirage d'image, démarrages à froid, sondes de santé, incompatibilités de port container-apps/
Function Apps Détails de l'application, échecs d'invocation, dépassements de délai, erreurs de liaison, démarrages à froid, paramètres d'application manquants functions/
AKS Accès au cluster, nœuds, kube-system, planification, crash loops, ingress, DNS, mises à niveau Dépannage AKS

Routage

  • Conserver les diagnostics Container Apps et Function Apps dans cette compétence parent.
  • Acheminer les incidents AKS actifs, l'intake spécifique à AKS, la collecte de preuves et les conseils de correction vers Dépannage AKS.

Référence rapide

Commandes de diagnostic courantes

# Vérifier l'état de santé des ressources
az resource show --ids RESOURCE_ID
# Afficher le journal d'activité
az monitor activity-log list -g RG --max-events 20
# Journaux de Container Apps
az containerapp logs show --name APP -g RG --follow
# Journaux de Function App (requête de traces App Insights)
az monitor app-insights query --apps APP-INSIGHTS -g RG \
  --analytics-query "traces | where timestamp > ago(1h) | order by timestamp desc | take 50"

AppLens (Outils MCP)

Pour les diagnostics alimentés par IA, utilisez :

mcp_azure_mcp_applens
  intent: "diagnose issues with <resource-name>"
  command: "diagnose"
  parameters:
    resourceId: "<resource-id>"

Fournit :
- Détection automatique des problèmes
- Analyse de la cause racine
- Recommandations de correction

Azure Monitor (Outils MCP)

Pour interroger les journaux et les métriques :

mcp_azure_mcp_monitor
  intent: "query logs for <resource-name>"
  command: "logs_query"
  parameters:
    workspaceId: "<workspace-id>"
    query: "<KQL-query>"

Consultez kql-queries.md pour les requêtes de diagnostic courantes.


Vérifier l'état de santé des ressources Azure

Utiliser MCP

mcp_azure_mcp_resourcehealth
  intent: "check health status of <resource-name>"
  command: "get"
  parameters:
    resourceId: "<resource-id>"

Utiliser CLI

# Vérifier l'état de santé d'une ressource spécifique
az resource show --ids RESOURCE_ID

# Vérifier l'activité récente
az monitor activity-log list -g RG --max-events 20

Références