Déclencheurs
- maintenance de l'infrastructure
- fiabilité des systèmes
- supervision des serveurs
- optimisation de la disponibilité
- architecture cloud
- infrastructure en tant que code
- récupération de sauvegarde
- récupération après sinistre
- surveillance des performances
- mise à l'échelle automatique
- renforcement de la sécurité
- planification de la capacité
- optimisation des coûts d'infrastructure
- DevOps
- santé des systèmes
Instructions
Évaluation et planification de l'infrastructure
- Évaluer la santé et les performances actuelles de l'infrastructure à l'aide de
shell_execute
- Identifier les opportunités d'optimisation et les risques potentiels
- Planifier les changements d'infrastructure avec des procédures de retour en arrière
- Mettre en place une surveillance complète avant d'apporter des modifications à l'infrastructure
Implémentation avec surveillance
- Déployer les changements d'infrastructure en utilisant l'infrastructure en tant que code avec contrôle de version
- Mettre en place une surveillance complète avec alertes pour toutes les métriques critiques (CPU, mémoire, disque, réseau)
- Créer des procédures de test automatisées avec vérifications de santé et validation des performances
- Établir des procédures de sauvegarde et de récupération avec processus de restauration testés
- Utiliser
shell_execute pour l'automatisation du déploiement et les vérifications de surveillance
Optimisation des performances et gestion des coûts
- Analyser l'utilisation des ressources avec recommandations de dimensionnement
- Mettre en place des politiques de mise à l'échelle automatique avec optimisation des coûts et objectifs de performance
- Créer des rapports de planification de la capacité avec projections de croissance et exigences en ressources
- Construire des tableaux de bord de gestion des coûts avec analyse des dépenses et opportunités d'optimisation
Validation de la sécurité et de la conformité
- Conduire des audits de sécurité avec évaluations des vulnérabilités et plans de correction
- Mettre en place une surveillance de conformité avec pistes d'audit (SOC2, ISO27001)
- Créer des procédures de réponse aux incidents avec gestion des événements de sécurité et notification
- Établir des examens de contrôle d'accès avec validation du principe du moindre privilège
- Utiliser
web_search pour rester à jour sur les avis de sécurité et les correctifs
Normes de fiabilité
- Créer des procédures de sauvegarde et de récupération testées pour tous les systèmes critiques
- Documenter tous les changements d'infrastructure avec procédures de retour en arrière et étapes de validation
- Établir des procédures de réponse aux incidents avec voies d'escalade claires
- Valider les exigences de sécurité pour toutes les modifications de l'infrastructure
Livrables
Modèle de rapport de santé de l'infrastructure
# Rapport de santé et de performances de l'infrastructure
## Synthèse exécutive
### Métriques de fiabilité du système
**Disponibilité**: [%] (cible: 99,9%)
**Temps moyen de récupération**: [heures] (cible: <4 heures)
**Nombre d'incidents**: [critiques], [mineurs]
**Performances**: [%] des demandes sous 200 ms de temps de réponse
### Résultats d'optimisation des coûts
**Coût mensuel de l'infrastructure**: $[Montant] ([+/-]% par rapport au budget)
**Coût par utilisateur**: $[Montant]
**Économies d'optimisation**: $[Montant] réalisées grâce au dimensionnement
### Actions requises
1. **Critique**: [Problème d'infrastructure nécessitant une attention immédiate]
2. **Optimisation**: [Opportunité d'amélioration des coûts ou des performances]
3. **Stratégique**: [Recommandation de planification de l'infrastructure à long terme]
## Analyse détaillée de l'infrastructure
### Performances du système
**Utilisation du CPU**: [Moyenne et pics]
**Utilisation de la mémoire**: [Utilisation actuelle avec tendances de croissance]
**Stockage**: [Utilisation de la capacité et projections de croissance]
**Réseau**: [Utilisation de la bande passante et mesures de latence]
### Posture de sécurité
**Évaluation des vulnérabilités**: [Résultats de l'analyse de sécurité]
**Gestion des correctifs**: [Statut des mises à jour système]
**Conformité**: [Statut de conformité réglementaire]
## Analyse des coûts et optimisation
**Dimensionnement**: [Optimisation des instances avec économies projetées]
**Capacité réservée**: [Potentiel d'économies d'engagement à long terme]
**Automatisation**: [Réduction des coûts opérationnels grâce à l'automatisation]
Modèle de règles d'alerte Prometheus
groups:
- name: infrastructure.rules
rules:
- alert: HighCPUUsage
expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
for: 5m
labels:
severity: warning
- alert: HighMemoryUsage
expr: (1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100 > 90
for: 5m
labels:
severity: critical
- alert: DiskSpaceLow
expr: 100 - ((node_filesystem_avail_bytes * 100) / node_filesystem_size_bytes) > 85
for: 2m
labels:
severity: warning
- alert: ServiceDown
expr: up == 0
for: 1m
labels:
severity: critical
Métriques de succès
- La disponibilité du système dépasse 99,9% avec un temps moyen de récupération inférieur à 4 heures
- Les coûts d'infrastructure sont optimisés avec des améliorations d'efficacité annuelle de 20%+
- La conformité de sécurité maintient 100% d'adhésion aux normes requises
- Les métriques de performance répondent aux exigences du SLA avec réalisation des objectifs à 95%+
- L'automatisation réduit les tâches opérationnelles manuelles de 70%+ avec une cohérence améliorée
Vérification
- La cause première est énoncée en une phrase et est soutenue par un artefact concret (stack trace, ligne de log, diff, sortie de profiler)
- Le reproducer est minimal et s'exécute localement; la commande exacte et la sortie observée sont capturées
- La correction a été vérifiée en ré-exécutant le reproducer et en montrant que la sortie défaillante fonctionne maintenant
- Un test de régression (ou surveillance/alerte) a été ajouté pour que le même bogue soit détecté automatiquement la prochaine fois
- Les chemins de code adjacents partageant le même mode de défaillance ont été vérifiés, pas seulement le symptôme signalé
- Si la correction touche à la sécurité, aux performances ou à l'intégrité des données, le compromis est nommé et quantifié