实施建议
如果您和您的团队完全是新的,那么这里有一些建议,可以帮助您指导您。
盘点警报#
- 管理警报疲劳!
- 确保所有警报都是可行的。
- 验证所有警报都有文档。
- 如果任何警报指示外部依赖性问题,请与您的同行在这些团队中保持联系,以共同承担责任。
- 尽可能清楚嘈杂的警报。优先考虑解决麻烦问题的永久修复。
- 禁用无法解决且没有客户影响的问题的警报。
小费
理想情况下,团队所带来的每一个警报都应该是他们可以解决的问题
优先考虑项目#
- 从最稳定的服务开始您的呼叫旅程。
- 优先考虑面向客户的服务。
- 确定哪些服务需要哪种响应水平,并且不要过分地分配不需要的服务的服务。
小费
当Pager在凌晨3点开放时,最好是值得的。
利用传统的NOC#
如果您的组织已经依靠24x7 NOC来监视状态并响应警报,则您可能会阶段迁移到团队中。有两种主要方法:
- 将您的团队分配为升级或您的服务“级别2”,并允许NOC响应为“级别1”。
- 将通用警报分为NOC可以轻松管理的任务以及需要团队访问和专业知识的任务。您可能会使用Pagerduty Rundeck,例如,让NOC团队在环境中访问某些任务。
随着时间的流逝,您的团队可以在适应呼叫的情况下接收更多警报。
变通#
- 没有规则认为需要进行全日历周。以对您的团队有意义的方式分开事物。
- 如果您在不同时区中有个人,请考虑使用一个模型,该模型将团队成员大部分时间都列入,并限制其睡眠时间。
- 如果您不需要在周末或某些服务的晚上覆盖范围,请不要通知响应者这些警报。将它们留为直到上班时间,并使其每天早上打扫队列清理队列的练习。
- 尝试延长任何个人的转移之间的时间。如果您有一支小型团队,请与具有类似服务的同行一起工作,以确定是否有足够的共享知识来共享轮换。
建立良好的行为#
给您的团队成员只需几个指导方针,以帮助他们适应待命。这可能包括:
- 设定警报响应时间的标准,并与您的团队合作以满足他们。使用mtta和mttr会有所帮助。
- 致力于响应迅速,并在需要帮助时进行交流。
- 不要犹豫升级。
- 清醒的电话。