Maintenance infrastructure : fiabilité et uptime 99,9%

Déclencheurs

maintenance de l'infrastructure
fiabilité des systèmes
supervision des serveurs
optimisation de la disponibilité
architecture cloud
infrastructure en tant que code
récupération de sauvegarde
récupération après sinistre
surveillance des performances
mise à l'échelle automatique
renforcement de la sécurité
planification de la capacité
optimisation des coûts d'infrastructure
DevOps
santé des systèmes

Instructions

Évaluation et planification de l'infrastructure

Évaluer la santé et les performances actuelles de l'infrastructure à l'aide de shell_execute
Identifier les opportunités d'optimisation et les risques potentiels
Planifier les changements d'infrastructure avec des procédures de retour en arrière
Mettre en place une surveillance complète avant d'apporter des modifications à l'infrastructure

Implémentation avec surveillance

Déployer les changements d'infrastructure en utilisant l'infrastructure en tant que code avec contrôle de version
Mettre en place une surveillance complète avec alertes pour toutes les métriques critiques (CPU, mémoire, disque, réseau)
Créer des procédures de test automatisées avec vérifications de santé et validation des performances
Établir des procédures de sauvegarde et de récupération avec processus de restauration testés
Utiliser shell_execute pour l'automatisation du déploiement et les vérifications de surveillance

Optimisation des performances et gestion des coûts

Analyser l'utilisation des ressources avec recommandations de dimensionnement
Mettre en place des politiques de mise à l'échelle automatique avec optimisation des coûts et objectifs de performance
Créer des rapports de planification de la capacité avec projections de croissance et exigences en ressources
Construire des tableaux de bord de gestion des coûts avec analyse des dépenses et opportunités d'optimisation

Validation de la sécurité et de la conformité

Conduire des audits de sécurité avec évaluations des vulnérabilités et plans de correction
Mettre en place une surveillance de conformité avec pistes d'audit (SOC2, ISO27001)
Créer des procédures de réponse aux incidents avec gestion des événements de sécurité et notification
Établir des examens de contrôle d'accès avec validation du principe du moindre privilège
Utiliser web_search pour rester à jour sur les avis de sécurité et les correctifs

Normes de fiabilité

Créer des procédures de sauvegarde et de récupération testées pour tous les systèmes critiques
Documenter tous les changements d'infrastructure avec procédures de retour en arrière et étapes de validation
Établir des procédures de réponse aux incidents avec voies d'escalade claires
Valider les exigences de sécurité pour toutes les modifications de l'infrastructure

Livrables

Modèle de rapport de santé de l'infrastructure

# Rapport de santé et de performances de l'infrastructure

## Synthèse exécutive

### Métriques de fiabilité du système
**Disponibilité**: [%] (cible: 99,9%)
**Temps moyen de récupération**: [heures] (cible: <4 heures)
**Nombre d'incidents**: [critiques], [mineurs]
**Performances**: [%] des demandes sous 200 ms de temps de réponse

### Résultats d'optimisation des coûts
**Coût mensuel de l'infrastructure**: $[Montant] ([+/-]% par rapport au budget)
**Coût par utilisateur**: $[Montant]
**Économies d'optimisation**: $[Montant] réalisées grâce au dimensionnement

### Actions requises
1. **Critique**: [Problème d'infrastructure nécessitant une attention immédiate]
2. **Optimisation**: [Opportunité d'amélioration des coûts ou des performances]
3. **Stratégique**: [Recommandation de planification de l'infrastructure à long terme]

## Analyse détaillée de l'infrastructure
### Performances du système
**Utilisation du CPU**: [Moyenne et pics]
**Utilisation de la mémoire**: [Utilisation actuelle avec tendances de croissance]
**Stockage**: [Utilisation de la capacité et projections de croissance]
**Réseau**: [Utilisation de la bande passante et mesures de latence]

### Posture de sécurité
**Évaluation des vulnérabilités**: [Résultats de l'analyse de sécurité]
**Gestion des correctifs**: [Statut des mises à jour système]
**Conformité**: [Statut de conformité réglementaire]

## Analyse des coûts et optimisation
**Dimensionnement**: [Optimisation des instances avec économies projetées]
**Capacité réservée**: [Potentiel d'économies d'engagement à long terme]
**Automatisation**: [Réduction des coûts opérationnels grâce à l'automatisation]

Modèle de règles d'alerte Prometheus

groups:
  - name: infrastructure.rules
    rules:
      - alert: HighCPUUsage
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 5m
        labels:
          severity: warning
      - alert: HighMemoryUsage
        expr: (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100 > 90
        for: 5m
        labels:
          severity: critical
      - alert: DiskSpaceLow
        expr: 100 - ((node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes) > 85
        for: 2m
        labels:
          severity: warning
      - alert: ServiceDown
        expr: up == 0
        for: 1m
        labels:
          severity: critical

Métriques de succès

La disponibilité du système dépasse 99,9% avec un temps moyen de récupération inférieur à 4 heures
Les coûts d'infrastructure sont optimisés avec des améliorations d'efficacité annuelle de 20%+
La conformité de sécurité maintient 100% d'adhésion aux normes requises
Les métriques de performance répondent aux exigences du SLA avec réalisation des objectifs à 95%+
L'automatisation réduit les tâches opérationnelles manuelles de 70%+ avec une cohérence améliorée

Vérification

La cause première est énoncée en une phrase et est soutenue par un artefact concret (stack trace, ligne de log, diff, sortie de profiler)
Le reproducer est minimal et s'exécute localement; la commande exacte et la sortie observée sont capturées
La correction a été vérifiée en ré-exécutant le reproducer et en montrant que la sortie défaillante fonctionne maintenant
Un test de régression (ou surveillance/alerte) a été ajouté pour que le même bogue soit détecté automatiquement la prochaine fois
Les chemins de code adjacents partageant le même mode de défaillance ont été vérifiés, pas seulement le symptôme signalé
Si la correction touche à la sécurité, aux performances ou à l'intégrité des données, le compromis est nommé et quantifié

infrastructure-maintenance

Déclencheurs

Instructions

Évaluation et planification de l'infrastructure

Implémentation avec surveillance

Optimisation des performances et gestion des coûts

Validation de la sécurité et de la conformité

Normes de fiabilité

Livrables

Modèle de rapport de santé de l'infrastructure

Modèle de règles d'alerte Prometheus

Métriques de succès

Vérification

Skills similaires