incident-response

Par anthropics · knowledge-work-plugins

Exécutez un workflow de réponse aux incidents — triage, communication et rédaction de postmortem. Déclenchez avec « we have an incident », « production is down », une alerte nécessitant une évaluation de sévérité, une mise à jour de statut en cours d'incident, ou lors de la rédaction d'un postmortem sans reproche après résolution.

npx skills add https://github.com/anthropics/knowledge-work-plugins --skill incident-response

/incident-response

Si tu vois des placeholders non familiers ou que tu as besoin de vérifier quels outils sont connectés, consulte CONNECTORS.md.

Gérer un incident de la détection jusqu'au postmortem.

Usage

/incident-response $ARGUMENTS

Modes

/incident-response new [description]     # Démarrer un nouvel incident
/incident-response update [status]       # Publier une mise à jour de statut
/incident-response postmortem            # Générer un postmortem à partir des données d'incident

Si aucun mode n'est spécifié, demande dans quelle phase se trouve l'incident.

How It Works

┌─────────────────────────────────────────────────────────────────┐
│                    INCIDENT RESPONSE                               │
├─────────────────────────────────────────────────────────────────┤
│  Phase 1: TRIAGE                                                  │
│  ✓ Assess severity (SEV1-4)                                     │
│  ✓ Identify affected systems and users                          │
│  ✓ Assign roles (IC, comms, responders)                         │
│                                                                    │
│  Phase 2: COMMUNICATE                                              │
│  ✓ Draft internal status update                                  │
│  ✓ Draft customer communication (if needed)                     │
│  ✓ Set up war room and cadence                                   │
│                                                                    │
│  Phase 3: MITIGATE                                                 │
│  ✓ Document mitigation steps taken                               │
│  ✓ Track timeline of events                                      │
│  ✓ Confirm resolution                                            │
│                                                                    │
│  Phase 4: POSTMORTEM                                               │
│  ✓ Blameless postmortem document                                 │
│  ✓ Timeline reconstruction                                       │
│  ✓ Root cause analysis (5 whys)                                  │
│  ✓ Action items with owners                                      │
└─────────────────────────────────────────────────────────────────┘

Severity Classification

Level Criteria Response Time
SEV1 Service down, all users affected Immediate, all-hands
SEV2 Major feature degraded, many users affected Within 15 min
SEV3 Minor feature issue, some users affected Within 1 hour
SEV4 Cosmetic or low-impact issue Next business day

Communication Guidance

Fournis des mises à jour claires et factuelles à un rythme régulier. Inclus : ce qui se passe, qui est affecté, ce que nous faisons, quand sera la prochaine mise à jour.

Output — Status Update

## Incident Update: [Title]
**Severity:** SEV[1-4] | **Status:** Investigating | Identified | Monitoring | Resolved
**Impact:** [Who/what is affected]
**Last Updated:** [Timestamp]

### Current Status
[What we know now]

### Actions Taken
- [Action 1]
- [Action 2]

### Next Steps
- [What's happening next and ETA]

### Timeline
| Time | Event |
|------|-------|
| [HH:MM] | [Event] |

Output — Postmortem

## Postmortem: [Incident Title]
**Date:** [Date] | **Duration:** [X hours] | **Severity:** SEV[X]
**Authors:** [Names] | **Status:** Draft

### Summary
[2-3 sentence plain-language summary]

### Impact
- [Users affected]
- [Duration of impact]
- [Business impact if quantifiable]

### Timeline
| Time (UTC) | Event |
|------------|-------|
| [HH:MM] | [Event] |

### Root Cause
[Detailed explanation of what caused the incident]

### 5 Whys
1. Why did [symptom]? → [Because...]
2. Why did [cause 1]? → [Because...]
3. Why did [cause 2]? → [Because...]
4. Why did [cause 3]? → [Because...]
5. Why did [cause 4]? → [Root cause]

### What Went Well
- [Things that worked]

### What Went Poorly
- [Things that didn't work]

### Action Items
| Action | Owner | Priority | Due Date |
|--------|-------|----------|----------|
| [Action] | [Person] | P0/P1/P2 | [Date] |

### Lessons Learned
[Key takeaways for the team]

If Connectors Available

Si ~~monitoring est connecté :

  • Extrais les détails d'alerte et les métriques
  • Affiche les graphiques des métriques affectées

Si ~~incident management est connecté :

  • Crée ou met à jour l'incident dans PagerDuty/Opsgenie
  • Page les responders on-call

Si ~~chat est connecté :

  • Publie les mises à jour de statut sur le canal incident
  • Crée un canal war room

Tips

  1. Commence à écrire immédiatement — N'attends pas d'avoir l'information complète. Mets à jour au fur et à mesure que tu apprends.
  2. Reste factuel dans tes mises à jour — Ce que nous savons, ce que nous avons fait, ce qui suit. Pas de spéculation.
  3. Les postmortems sont sans blâme — Concentre-toi sur les systèmes et les processus, pas sur les individus.

Skills similaires