随叫随到
对随叫随到的期望和有用信息的总结。
随叫随到是什么?#
随叫随到意味着可以随时联系您,以便调查和解决您负责的系统可能出现的问题。例如,如果你在PagerDuty的服务是随叫随到的,如果该服务的任何警报被触发,你将收到一个“页面”(在你的移动设备上的警报,电子邮件,电话,或短信等),告诉你什么是坏的和如何修复它的细节。您将被期望采取任何必要的行动来解决问题并将服务返回到正常状态。
呼叫责任超出正常办公时间延伸,如果您打电话,则预计您将能够响应问题 - 即使在凌晨2点。这听起来很可怕(它可以是),但这是我们的客户经历的问题,并且是PageRduty产品本身试图修复的问题!
责任#
准备
- 带着你的笔记本电脑和互联网(办公室,家里,MiFi加密狗,带捆绑计划的电话,等等)。
- 有办法给你的MiFi充电。
- 团队提醒升级在5分钟内发生,设置/错开您的通知超时(推送,短信,电话等)。
- 确保PagerDuty的短信和电话可以绕过您的“请勿打扰”设置。
- 准备好(环境设置,当前必要的存储库的当前工作副本是本地和运行,您已在工作站上配置和测试的环境,您的第三方服务的凭据是当前的等待等。)
- 阅读我们的事件响应文档(就是这个!),了解我们如何处理严重事件,沟通的不同角色和方法,等等。
- 了解你即将到来的待命时间(主要的,后备的),并安排差旅,假期,约会等。
- 带着你的笔记本电脑和互联网(办公室,家里,MiFi加密狗,带捆绑计划的电话,等等)。
次
- 无论何时可以(参见下面的第一个“不责任”点)
- 确定问题的紧迫性:
- 是应该在现在工作还是升级到一个重大事件的东西?(例如,“火灾中的生产服务器”情况。安全警报) - 这样做。
- 是在夜间不必发生的一些战术工作吗?例如,磁盘利用率高水印,但剩下充足的空间,趋势不是指示即将到来的厄运等等,只需打开警报,直到更合适的时间(工作时间或第二天早晨)并回到修复它。
- 检查松弛当前活动。通常(但并非总是)会在那里宣布可能引起警报的操作。
- 警报和您的初步调查是否表明一个一般性的问题,还是一个相关团队应该调查的特定服务的问题?如果这个问题看起来不像是你擅长的,那就升级到另一个团队。
修复
- 您有权潜入任何问题并采取行动来解决它。
- 必要时让其他团队成员参与进来:如果您无法在合理的时间范围内找出原因,或者服务/警报是您以前从未处理过的,请不要犹豫,立即升级。
- 如果问题不是时刻敏感,并且您有其他优先级工作,请创建一个JIRA机票以跟踪它(具有适当的严重性)。
提升
- 如果特定问题继续发生;如果问题警报经常,但事实证明是可预防的非问题 - 也许改善这应该是一个长期任务。
- 磁盘满了,应该旋转的日志,嘈杂的警报…
- 如果困难/不可能找到信息,请将其写下来。不断重构并改善我们的知识库和文档。如果Wiki / CodeBase的心理模型与当前组织的方式不匹配,则添加冗余链接和指针。
- 如果特定问题继续发生;如果问题警报经常,但事实证明是可预防的非问题 - 也许改善这应该是一个长期任务。
支持
- 当你的值班“轮班”结束时,让下一个值班的知道尚未解决的问题和其他需要注意的经验。
- 如果你正在做一个影响日程安排的改变(例如增加/删除你自己),让其他人知道,因为我们中的许多人会提前安排好随叫随到的日程安排。
- 相互支持:当执行可能生成大量页面的活动时,礼貌的做法是通过通知他们并在持续时间内安排覆盖来将“页面”从待命状态中“移走”。
不责任#
应该没有期望成为第一个承认的所有在随叫随到期间发出的警报。
- 通勤(以及其他必要的干扰)是生活中不可避免的事实,有时在事态升级之前,你不可能收到或采取行动。这就是我们的后备待命和计划。
没有期望自己解决所有问题。
- 没有人知道一切。你的整个团队都在这里提供帮助。没有羞耻,很多很多东西,你不确定的问题。我们的座右铭是“永远犹豫不决。”
- 服务所有者总是更了解他们的东西是如何工作的。特别是当我们和他们的文档缺乏时,与相关团队进行双重检查可以避免错误。测量两次,切割一次——通常最好是让主题问题专家(SME)来切割。
建议书#
如果您的团队开始自己的随叫随到轮换,这里有一些来自运营团队的调度建议。
始终有备份计划。是的,这意味着两个人同时随叫随到。如果他们知道他们可以联系的特定备份,这需要大量的压力随叫随到,而不是尝试选择团队的随机成员。
- 后备班通常应该在主班之后。这给之前的初选提供了一个机会来传递额外的背景信息,这些内容可能在他们换班时出现。这也有助于防止人们搁置问题,让下一个班次来解决它。
升级的第三级(备份计划之后)应该是整个团队。这应该希望永远不会发生(它在运营团队的历史中发生了一次),但是当它确实时,能够才能获得下一个可用的人是有用的。
团队经理可以(并且应该)成为正常轮换的一部分。它可以更好地了解已经发生的事情。
团队的新成员应该在最初几周跟随你的随叫随到轮值。他们应该得到所有的警告,并跟着你做。(所有新员工都会跟随运营团队一周的随叫随到,但让新成员跟随团队轮换也是很有用的。只是不能同时)。
我们建议您将升级超时设置为5分钟。如果他们有能力的话,这应该是足够的时间让他们承认这一事件。如果他们不能在5分钟内做出反应,那么他们可能就无法对事件做出反应。
当你下班的时候,你应该为下一个值班的人提供关于他们值班期间可能出现的任何问题的快速总结。一个服务一直在波动,一个问题可能会再次发生,等等。如果你想要正式一点,可以通过电子邮件写一份书面报告,但一般来说,口头总结就足够了。
通知方法建议#
您可以自由地设置您认为合适的通知规则,以匹配您希望对事件作出最佳响应的方式。如果您不确定如何配置它们,操作团队有一些建议。
- 使用推送通知和电子邮件作为第一种通知方法。我们大多数人随时都有我们的手机,所以这是一个谨慎的第一方法,通常就足够了。
- 每隔一分钟使用电话和/或短信通知,直到升级时间。如果推不起作用,那你可能需要更有力的手段,比如打电话。每分钟都要打电话,直到太晚。如果你在第三次接电话时还不接,那么你就不太可能有能力回应,事件就会从你身边升级。
礼仪#
如果现在的值班员工在中午12点才来到办公室,看上去很累,这并不是因为他们懒惰。他们可能是晚上被呼叫的。放他们一马,对他们好点。
不要从别人下面承认事件。如果您没有对事件分页,那么您不应该承认它。使用笔记添加评论。
如果您正在测试某些内容或执行您知道的操作将导致页面,则习惯于“拍摄寻呼机”,以便您进行测试。通知该人随时通知您在测试时将在下一小时内接受着寻呼机。
“不要犹豫,要逐步升级。”如果你不确定如何解决一个问题,不要因为找别人帮忙而感到羞愧。同样,如果别人向你寻求帮助,永远不要瞧不起他们。
如果别人要求,并且你有能力的话,你可以考虑替他们代一个小时左右的值班时间。我们每个人都有自己的生活,这可能会影响到随时待命的时间,有一天你可能需要改变他们的随时待命时间,以便和你从外地来的朋友出去玩一晚。
如果在您的随叫随到的呼叫转移期间出现问题,则负责解析它。即使需要3个小时,剩余只有1小时。如果他们同意,你可以交出下一个随叫随到的,但你永远不应该假设这是可能的。