问责制

问责制

信息共享和透明度还支持培养问责制的环境。有效验尸的一个普遍挑战是,在分析事件并创建了行动项目以防止复发之后,从未完成信息共享以提高透明度。

首先设定何时应完成验尸操作项目的策略。在Pagerduty,应在事件发生后的15天内完成防止SEV-1事件重复发生的高优先级动作项目。SEV-2事件中的动作项目应在30天内解决。将这种期望传达给所有工程学,并确保将其记录在以供将来参考。

为了完成行动项目,他们必须有清晰的所有者。由于我们是一家敏捷和DevOps商店,因此负责受影响服务的跨职能团队还负责实施预期减少失败可能性的改进。工程领导帮助阐明每个团队拥有哪些系统的哪些部分,并设定了团队拥有新的开发和运营改进的期望。在整个组织中传达了所有权名称,因此所有团队都知道谁拥有什么和所有权差距。与往常一样,请记录此信息以备将来参考和新员工。关于事件行动项目所有权的任何不确定性都在验尸会议上与所有可能拥有该行动项目的团队的代表讨论。

我们还看到,通过让负责任的领导者(产品经理和工程经理)在验尸会议上优先考虑团队的工作,从而提高了责任制。产品经理负责定义良好的客户体验。事件导致客户体验差。通过解释说,它将提供对客户体验的威胁以及如何改善这种体验的想法,使产品经理参与验尸讨论。这样做使工程学有机会解释这些行动项目的重要性,以便产品经理将相应地将工作优先考虑。同样,使工程领导者更多地参与验尸讨论,使他们更好地了解系统弱点,以告知他们如何以及在何处投资技术资源。与领导者分享此环境,使工作优先级,使他们能够支持团队从事件分析中快速完成高优先级行动项目的努力。

最后,确保可发现并定期查看尸体行动项目。记录验尸行动项目,就像其他任何任务一样。事件分析中的操作项目列表不仅应列入验尸文档。在将拥有该动作项目的团队项目中,在您的任务管理工具中打开门票,因此可以与所有其他计划的工作一起查看。我们将所有门票标记为严重程度(SEV-1,SEV-2等)和日期标签(Yyyymmdd),因此我们可以轻松查询来自特定事件的票证,并从重大事件中为开放票的数量构建报告。

关键要点

  • 设定验尸行动项目的政策:例如SEV-1动作项目15天,SEV-2动作项目30天。
  • 澄清验尸行动项目的所有权。
  • 吸引优先工作的领导者。
  • 在您的工作管理票务系统中打开验尸行动项目的门票。
Baidu