设定团队规范
职责#
虽然在待命时间表中可用是待命的第一个职责之一,但除了承认警报外,还有更多的义务。当警报发出时,它将通知通话响应者,然后将承认该事件(停止进一步升级)。呼叫中小企业的目标之一就是减少承认的平均时间(mtta)和平均解决时间(MTTR)。通过快速确认警报,推动MTTA是呼叫时间表的行为之一。
一旦确认事件,呼叫工程师将负责对事件进行分解;他们可以自己解决吗?需要通知其他响应者吗?他们需要重新分配另一支球队吗?严重程度是否在增加,是否需要启动重大事件?
在Pagerduty,我们有一句话:“毫不犹豫地升级!”。分三口过程的一部分是确定您是否有能力自己解决问题。如果问题不敏感,请创建机票,将其分配给合适的团队,并在工作时间内进行工作。但是,对于高严重程度或迅速增加,犹豫升级的事件只会增加相关损害的总体机会。工程师应始终感到有能力在必要时参与其他团队和团队成员。您很少知道所有的贡献因素或喘气事件开始时的根本原因。作为第一响应者,目标是具有足够的基本理解,以便能够确定原因以及谁能带来回应。
此外,呼叫工程师应寻找改善现有系统和流程的方法。花点时间调整警报,是否有行动的警报。另外,寻找改进系统的方法,并提出类似的问题:
- 警报中是否有足够的上下文使其有意义?
- 文档是最新的吗?
- 我该怎么办,下一个可以处理这个问题的人会有更轻松的时光?
不责任#
即使在通话中的转变期间,在您的平台上出现的每个问题也不是您的责任。大型组织中的一个团队应该能够升级到其他团队,或者在事件需要时寻求更多支持。
小费
“毫不犹豫地升级”
重要的是要帮助响应者在电话中转移期间很好地管理自己的时间,以避免倦怠和维持员工的士气。其他要考虑的其他事情包括:
- 鼓励响应者在电话中减轻定期工作量
- 提醒响应者,如果他们不为事件增加价值,则应使事件脱离事件或将其身份设置为利益相关者以供以后公告
- 当响应者已经处理事件时,其他和/或无关的事件应落在团队的其他成员身上
- 如果响应者在轮班期间烧毁了,请为团队中的其他人提供一个过程,以帮助他们捡起部分或整个班次,以便他们可以入睡,吃饭,等等。
对于某些响应者来说,很容易(尤其是如果他们是新手,他们)有义务以自己的代价解决所有问题。从长远来看,这种行为不会帮助您的团队。人们很容易体验到烧毁和怨恨。此外,重要的是要记住,人们是人类,而期望可以回答页面的期望,但生活会发生。手机落在泳池中,互联网熄灭,晚餐发生。有时会错过警报,这就是为什么会有升级政策的原因,因为没有期望响应者是第一个每次回答每个页面的人。
交接#
在通话中的转变结束时,最好进行某种正式的交接。这可以采取团队会议的形式,即将上任的呼吸器总结了他们的转变事件。它还可以在您的事件响应平台中采用电子邮件,共享文档或保存的查询的形式,该平台突出显示当前和最新警报,以及如何处理它们,或者如何处理它们,或者当前的状态正在进入下一个轮班。
交接的目的是确保进入的通话响应者为当前环境状态具有所有信息和上下文。
其他可能有助于您的交接的项目:
- 关键系统的最新部署,包括上游依赖性和下游消费者。
- 验尸会议后创建的任何排队的补救工作请求。
- 任何待办事项项目都可以更好地制作文档,上下文,警报或其他任何事情。
- 员工对其他关键团队的变化。例如,如果您的团队定期在数据库工程中与ED联系,但是ED将离开您的组织。
您的团队可能会找到其他可用于分享轮班交接的关键领域。在Pagerduty,我们建议您的升级政策的第二层是前一周的人,因为他们仍然应该从以前的任何事件中有上下文。您可以了解有关升级政策的Pagerdumanbetx3.0ty建议的更多信息这里。
呼叫和生活#
对于刚接到电话的团队和个人,心态转变可能很难。关键的考虑之一是呼叫时的工作与生活平衡。如前所述,记住人们是人类是避免倦怠和维持以人为中心的文化的关键。待命生活需要考虑的事情是: