infrastructure-maintenance

Par elophanto · elophanto

Fiabilité des systèmes, optimisation des performances, architecture cloud et automatisation de l'infrastructure pour maintenir un uptime supérieur à 99,9 %. Adapté de msitarzewski/agency-agents.

npx skills add https://github.com/elophanto/elophanto --skill infrastructure-maintenance

Déclencheurs

  • maintenance de l'infrastructure
  • fiabilité des systèmes
  • supervision des serveurs
  • optimisation de la disponibilité
  • architecture cloud
  • infrastructure en tant que code
  • récupération de sauvegarde
  • récupération après sinistre
  • surveillance des performances
  • mise à l'échelle automatique
  • renforcement de la sécurité
  • planification de la capacité
  • optimisation des coûts d'infrastructure
  • DevOps
  • santé des systèmes

Instructions

Évaluation et planification de l'infrastructure

  • Évaluer la santé et les performances actuelles de l'infrastructure à l'aide de shell_execute
  • Identifier les opportunités d'optimisation et les risques potentiels
  • Planifier les changements d'infrastructure avec des procédures de retour en arrière
  • Mettre en place une surveillance complète avant d'apporter des modifications à l'infrastructure

Implémentation avec surveillance

  • Déployer les changements d'infrastructure en utilisant l'infrastructure en tant que code avec contrôle de version
  • Mettre en place une surveillance complète avec alertes pour toutes les métriques critiques (CPU, mémoire, disque, réseau)
  • Créer des procédures de test automatisées avec vérifications de santé et validation des performances
  • Établir des procédures de sauvegarde et de récupération avec processus de restauration testés
  • Utiliser shell_execute pour l'automatisation du déploiement et les vérifications de surveillance

Optimisation des performances et gestion des coûts

  • Analyser l'utilisation des ressources avec recommandations de dimensionnement
  • Mettre en place des politiques de mise à l'échelle automatique avec optimisation des coûts et objectifs de performance
  • Créer des rapports de planification de la capacité avec projections de croissance et exigences en ressources
  • Construire des tableaux de bord de gestion des coûts avec analyse des dépenses et opportunités d'optimisation

Validation de la sécurité et de la conformité

  • Conduire des audits de sécurité avec évaluations des vulnérabilités et plans de correction
  • Mettre en place une surveillance de conformité avec pistes d'audit (SOC2, ISO27001)
  • Créer des procédures de réponse aux incidents avec gestion des événements de sécurité et notification
  • Établir des examens de contrôle d'accès avec validation du principe du moindre privilège
  • Utiliser web_search pour rester à jour sur les avis de sécurité et les correctifs

Normes de fiabilité

  • Créer des procédures de sauvegarde et de récupération testées pour tous les systèmes critiques
  • Documenter tous les changements d'infrastructure avec procédures de retour en arrière et étapes de validation
  • Établir des procédures de réponse aux incidents avec voies d'escalade claires
  • Valider les exigences de sécurité pour toutes les modifications de l'infrastructure

Livrables

Modèle de rapport de santé de l'infrastructure

# Rapport de santé et de performances de l'infrastructure

## Synthèse exécutive

### Métriques de fiabilité du système
**Disponibilité**: [%] (cible: 99,9%)
**Temps moyen de récupération**: [heures] (cible: <4 heures)
**Nombre d'incidents**: [critiques], [mineurs]
**Performances**: [%] des demandes sous 200 ms de temps de réponse

### Résultats d'optimisation des coûts
**Coût mensuel de l'infrastructure**: $[Montant] ([+/-]% par rapport au budget)
**Coût par utilisateur**: $[Montant]
**Économies d'optimisation**: $[Montant] réalisées grâce au dimensionnement

### Actions requises
1. **Critique**: [Problème d'infrastructure nécessitant une attention immédiate]
2. **Optimisation**: [Opportunité d'amélioration des coûts ou des performances]
3. **Stratégique**: [Recommandation de planification de l'infrastructure à long terme]

## Analyse détaillée de l'infrastructure
### Performances du système
**Utilisation du CPU**: [Moyenne et pics]
**Utilisation de la mémoire**: [Utilisation actuelle avec tendances de croissance]
**Stockage**: [Utilisation de la capacité et projections de croissance]
**Réseau**: [Utilisation de la bande passante et mesures de latence]

### Posture de sécurité
**Évaluation des vulnérabilités**: [Résultats de l'analyse de sécurité]
**Gestion des correctifs**: [Statut des mises à jour système]
**Conformité**: [Statut de conformité réglementaire]

## Analyse des coûts et optimisation
**Dimensionnement**: [Optimisation des instances avec économies projetées]
**Capacité réservée**: [Potentiel d'économies d'engagement à long terme]
**Automatisation**: [Réduction des coûts opérationnels grâce à l'automatisation]

Modèle de règles d'alerte Prometheus

groups:
  - name: infrastructure.rules
    rules:
      - alert: HighCPUUsage
        expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
        for: 5m
        labels:
          severity: warning
      - alert: HighMemoryUsage
        expr: (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100 > 90
        for: 5m
        labels:
          severity: critical
      - alert: DiskSpaceLow
        expr: 100 - ((node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes) > 85
        for: 2m
        labels:
          severity: warning
      - alert: ServiceDown
        expr: up == 0
        for: 1m
        labels:
          severity: critical

Métriques de succès

  • La disponibilité du système dépasse 99,9% avec un temps moyen de récupération inférieur à 4 heures
  • Les coûts d'infrastructure sont optimisés avec des améliorations d'efficacité annuelle de 20%+
  • La conformité de sécurité maintient 100% d'adhésion aux normes requises
  • Les métriques de performance répondent aux exigences du SLA avec réalisation des objectifs à 95%+
  • L'automatisation réduit les tâches opérationnelles manuelles de 70%+ avec une cohérence améliorée

Vérification

  • La cause première est énoncée en une phrase et est soutenue par un artefact concret (stack trace, ligne de log, diff, sortie de profiler)
  • Le reproducer est minimal et s'exécute localement; la commande exacte et la sortie observée sont capturées
  • La correction a été vérifiée en ré-exécutant le reproducer et en montrant que la sortie défaillante fonctionne maintenant
  • Un test de régression (ou surveillance/alerte) a été ajouté pour que le même bogue soit détecté automatiquement la prochaine fois
  • Les chemins de code adjacents partageant le même mode de défaillance ont été vérifiés, pas seulement le symptôme signalé
  • Si la correction touche à la sécurité, aux performances ou à l'intégrité des données, le compromis est nommé et quantifié

Skills similaires