您的团队使用PagerDuty的方式可能会对承认的平均时间(MTTA)和平均解决时间(MTTR)的方式产生重大影响,因此我们希望分享一些最佳实践,以使指标有意义。
制定确认事件的准则
响应事件所需的时间是关键的性能指标。要了解您在Pagerduty中回应的时间,我们建议您在开始研究时承认事件。此外,如果您正在采取多用户升级政策,则这种做法更为重要 - 一旦有人承认该事件停止升级,并且没有人在该级别上通知其他人。
许多高性能的运营团队为ACK时间设定了目标,因为它是一个指标团队,通常可以控制很多。Pagerduty的团队报告可以向您展示TTA的趋势,因此您可以查看您是否属于目标范围,以及TTA随着事件计数的变化。
定义何时解决
我们建议解决事件完全关闭时解决事件,并且服务恢复了完全运营的状态。如果您使用的是API集成,那么当我们从服务中收到“一切正常”消息时,PagerDuty将自动解决事件。但是,如果您要手动解决事件,请确保您的团队知道解决问题时解决Pagerduty中的事件。如果您正在使用电子邮件集成,则可以设置电子邮件管理规则自动解决事件。
仔细使用超时
创建服务的设置时,您可以设置两个超时:事件ACK超时和自动解决超时。这些超时可能会对您的MTTA和MTTR指标产生影响,因此了解如何配置它们很重要。
事件ACK超时会提供安全网,如果警报在深夜唤醒您,并且在确认后您会睡着了。到达超时后,该事件将重新开放并再次通知您。如果对您的团队来说,当事件发生后入睡是一个大问题,那么您应该将事件的暂停时间保持生效 - 但是,它可以使您的MTTA指标更加复杂。可以为每个服务独立配置事件ACK超时,默认设置为30分钟。
如果您没有习惯于完成工作后解决事件,那么自动解决超时即可关闭已被遗忘的事件。此超时也可以在服务设置中配置,默认值为4小时。如果您正在使用此超时,则需要确保它比解决大多数事件所需的时间更长(您可以使用我们的系统或团队报告查看事件分辨率时间)。为了确保您不要忘记开放事件,如果您的事件已开放时间超过一天,Pagerduty也会每24小时向您发送电子邮件。
治疗拍打警报
拍打警报是触发的警报,然后迅速解决。通常,当监视的度量悬停在阈值附近时,通常是引起拍打。拍打警报可能会使您的MTTR&MTTA指标混乱 - 在团队报告中,您可能会看到大量的警报,分辨率较低,或者解决时间低于ACK时间(自动解决的事件永远不会得到ACK-ED)。最好调查拍打警报,因为它们可以导致警报疲劳(更不用说引起烦恼) - 很多次可以通过调整阈值来治愈它们。有关拍打警报的更多资源,请查看这些新遗物和纳吉奥斯文章。