什么是验尸
出了什么问题,我们如何从中学到?
验尸(或验尸)是一个过程,旨在帮助您从过去的事件中学习。它通常涉及事件发生后不久的无责任分析和讨论。产生了工件,其中包括详细说明造成事件的问题,以及要采取的步骤列表,以防止将来再次发生类似的事件。讨论中还应包括对事件响应过程本身的有效响应过程本身的有效性分析。验尸的价值来自帮助制度化持续改进的文化。
组织可以以略有不同的术语来参考验尸过程:
- 学习评论
- 行动后审查
- 事件审查
- 事件报告
- 事后评论
- 根本原因分析(或RCA)
为什么要验尸#
在事件响应期间,该团队100%专注于恢复服务。他们不会(也不应该)浪费时间和精神能量,思考如何最佳地做某事或深入研究导致事件的原因。这就是为什么验尸至关重要的原因 - 他们提供了一个机会,一旦问题不再影响用户,就可以反映出反映。验尸过程推动了专注,灌输了一种学习文化,并确定了否则会丢失的改进机会。
没有验尸,您将无法识别自己在做正确的事情,可以改进的地方,最重要的是,如何避免将来犯同样的错误。进行有效的后验尸使您可以从错误中快速学习并改善系统和流程。一个精心设计的无罪后验尸允许团队不断学习,这是一种迭代改善基础架构和事件响应过程的方式。确保编写详细且准确的邮政死刑,以便从中获得最大的好处。
什么时候做尸体#
为每个重大事件做邮政事候(SEV-2/1)。这包括任何触发事件响应时- 即使后来发现严重程度实际上较低,也是一个错误的警报,或者在没有干预的情况下迅速恢复。在这些情况下,不应忽略验尸,因为它仍然是审查事件响应过程中所做的事和不良好工作的机会。如果事件不应该触发事件响应,那么值得理解为什么可以对其进行调节,以避免将来不必要地触发事件响应。进行此分析和后续行动将有助于防止警报疲劳。
事件解决后不久,验尸将完成,而上下文对于所有响应者仍然是新鲜的。正如解决重大事件发生时的重中之重一样,完成验尸的优先级优先于计划的工作。完成验尸是事件响应过程的最后一步。延迟验尸延迟关键学习,这将阻止事件反复出现。
Pagerduty的内部政策完成邮政为验尸的是SEV-1的3个日历日,而SEV-2的时间为5个工作日。因为安排每个人都有可用的时间可能很困难,所以期望人们会调整日历以在此时间范围内参加验尸会议。
谁负责验尸#
在重大事件的结尾,或之后不久事件指挥官选择并直接通知一名响应者以拥有邮政为验尸。请注意,验尸所有者不仅负责完成验尸本身。撰写验尸是一项合作的努力并应包括所有参与事件响应的人。工程学将领导分析,但验尸过程应涉及管理,客户支持和业务通信团队。验尸所有者与所有需要参与的人协调,以确保及时完成。
重要的是要指定单个所有者避免旁观者效应。如果您要求所有响应者或团队进行尸检,则冒着假设其他人正在这样做的每个人的风险,因此,没有人这样做。选择所有者时,您可以选择符合以下任何条件的单个人:
- 事件期间扮演领导角色
- 执行了导致稳定服务的任务
- 是最受影响的服务的主要呼叫响应者
- 手动触发事件以启动事件响应
做尸体并不是惩罚,所有者不是“造成”事件的人。有效的验尸是无罪的。在复杂的系统中,从来没有一个原因,而是导致失败的因素组合。所有者只是一个负责任的个人,执行某些管理任务,跟进信息,并将邮政验证驱动到完成。撰写验尸最终将是一项协作的努力,但是选择单个所有者进行协作有助于确保完成。