警惕疲劳

随叫随到

对随叫随到的期望和有用信息的总结。

随叫随到是什么?

随叫随到意味着可以随时联系您,以便调查和解决您负责的系统可能出现的问题。例如,如果你在PagerDuty的服务是随叫随到的,如果该服务的任何警报被触发,你将收到一个“页面”(在你的移动设备上的警报,电子邮件,电话,或短信等),告诉你什么是坏的和如何修复它的细节。您将被期望采取任何必要的行动来解决问题并将服务返回到正常状态。

呼叫责任超出正常办公时间延伸,如果您打电话,则预计您将能够响应问题 - 即使在凌晨2点。这听起来很可怕(它可以是),但这是我们的客户经历的问题,并且是PageRduty产品本身试图修复的问题!

责任

  1. 准备

    • 带着你的笔记本电脑和互联网(办公室,家里,MiFi加密狗,带捆绑计划的电话,等等)。
      • 有办法给你的MiFi充电。
    • 团队提醒升级在5分钟内发生,设置/错开您的通知超时(推送,短信,电话等)。
    • 准备好(环境设置,当前必要的存储库的当前工作副本是本地和运行,您已在工作站上配置和测试的环境,您的第三方服务的凭据是当前的等待等。)
    • 阅读我们的事件响应文档(就是这个!),了解我们如何处理严重事件,沟通的不同角色和方法,等等。
    • 了解你即将到来的待命时间(主要的,后备的),并安排差旅,假期,约会等。
    • 无论何时可以(参见下面的第一个“不责任”点)
    • 确定问题的紧迫性:
      • 是应该在现在工作还是升级到一个重大事件的东西?(例如,“火灾中的生产服务器”情况。安全警报) - 这样做。
      • 是在夜间不必发生的一些战术工作吗?例如,磁盘利用率高水印,但剩下充足的空间,趋势不是指示即将到来的厄运等等,只需打开警报,直到更合适的时间(工作时间或第二天早晨)并回到修复它。
    • 检查松弛当前活动。通常(但并非总是)会在那里宣布可能引起警报的操作。
    • 警报和您的初步调查是否表明一个一般性的问题,还是一个相关团队应该调查的特定服务的问题?如果这个问题看起来不像是你擅长的,那就升级到另一个团队。
  2. 修复

    • 您有权潜入任何问题并采取行动来解决它。
    • 必要时让其他团队成员参与进来:如果您无法在合理的时间范围内找出原因,或者服务/警报是您以前从未处理过的,请不要犹豫,立即升级。
    • 如果问题不是时刻敏感,并且您有其他优先级工作,请创建一个JIRA机票以跟踪它(具有适当的严重性)。
  3. 提升

    • 如果特定问题继续发生;如果问题警报经常,但事实证明是可预防的非问题 - 也许改善这应该是一个长期任务。
      • 磁盘满了,应该旋转的日志,嘈杂的警报…
    • 如果困难/不可能找到信息,请将其写下来。不断重构并改善我们的知识库和文档。如果Wiki / CodeBase的心理模型与当前组织的方式不匹配,则添加冗余链接和指针。
  4. 支持

    • 当你的值班“轮班”结束时,让下一个值班的知道尚未解决的问题和其他需要注意的经验。
    • 如果你正在做一个影响日程安排的改变(例如增加/删除你自己),让其他人知道,因为我们中的许多人会提前安排好随叫随到的日程安排。
    • 相互支持:当执行可能生成大量页面的活动时,礼貌的做法是通过通知他们并在持续时间内安排覆盖来将“页面”从待命状态中“移走”。

不责任

  1. 应该没有期望成为第一个承认的所有在随叫随到期间发出的警报。

    • 通勤(以及其他必要的干扰)是生活中不可避免的事实,有时在事态升级之前,你不可能收到或采取行动。这就是我们的后备待命和计划。
  2. 没有期望自己解决所有问题。

    • 没有人知道一切。你的整个团队都在这里提供帮助。没有羞耻,很多很多东西,你不确定的问题。我们的座右铭是“永远犹豫不决。”
    • 服务所有者总是更了解他们的东西是如何工作的。特别是当我们和他们的文档缺乏时,与相关团队进行双重检查可以避免错误。测量两次,切割一次——通常最好是让主题问题专家(SME)来切割。

建议书

如果您的团队开始自己的随叫随到轮换,这里有一些来自运营团队的调度建议。

升级

通知方法建议

您可以自由地设置您认为合适的通知规则,以匹配您希望对事件作出最佳响应的方式。如果您不确定如何配置它们,操作团队有一些建议。

移动警报

礼仪

承认

Baidu