事件响应周期有5个步骤:
解决事件响应周期中的每个步骤最终将通过(1)专注于可操作的警报来帮助您的团队降低事件解决时间,(2)让合适的人审查这些警报,以及(3)了解问题的全部影响因此,(4)可以采取适当的补救步骤,(5)审查以确保不再发生相同的问题。在本文中,我们将讨论步骤2:通知。
通知意味着在正确的时间提醒正确的人警报。当您利用工具正确地通知团队时,合适的人可以迅速聚集在一起,开始研究事件,减少您的响应和解决时间,以最大程度地减少问题的整体业务影响。
- 我们通知太多人有关一个事件。
- 我们花了很长时间才能让合适的人调查一个问题。
- 我们缺少或难以保持我们的SLA。
- 我们没有自动化的过程来升级警报。
当同时通知太多人时,可能会发生1或2件事
- 关于谁实际上应该工作和解决警报的困惑
- 当团队不断被其他用户可以帮助解决的通知轰炸时,警报疲劳会发挥作用。
功能:升级政策
有了Pagerduty的升级政策,您可以准确控制有多少人,以及在事件触发时应通知谁。这使您能够立即引入关键资源来处理事件,而不必打扰其他从事重要项目的人。
当您将通知定位给可以完成工作的合适人员时,您可以通过更少的时间进行消防并弄清楚谁拥有警报来驱动解决方案。
阅读有关升级政策的更多信息
功能:通话时间表
当同时通知太多的人时,您可能需要泄露任何被通知的人以及一周中的一天和日期。Pagerduty计划使您可以通过根据不同的旋转类型创建自定义的计划来做到这一点。
能够控制团队的一天中的几个小时,可以使您能够在多个时区中跨团队分发工作,从而使每个区域团队都从营业时间之外收到通知。
阅读有关“通话时间表”的更多信息。
当涉及错误技能的人参与事件时,由于团队试图弄清楚谁应该调查问题以及如何与他们联系,因此将事件解决时间保持在努力。
功能:服务和升级政策
如果您花了很长时间才能让合适的人看一个问题,那么您可能将警报定位于错误的团队或人。使用Pagerduty,您可以在触发事件后立即将警报路由到合适的人群。
当在服务上触发事件时,该事件将立即分配给与该服务相关的升级政策中的人。通过将事件引导到合适的服务,您可以准确定位哪个升级政策或团队应对每个警报负责,以便将合适的人通知他们可以立即解决的问题。
功能:重新分配事件
如果您开始处理事件,并意识到该事件需要由其他团队或主题专家解决,则可以将事件重新分配到不同级别的升级策略,不同的升级政策或特定用户。重新分配事件后,根据其用户配置文件中配置的通知规则,Pagerduty触发了新分配给事件的人的通知。如果将事件重新分配到升级政策,Pagerduty将自动遵循该升级政策的规则,消除可能采取的任何手动流程,以使合适的团队从合适的团队中获得合适的人。
With this feature, you won’t need to chase down the right person to review an incident, as PagerDuty will be able to automate the notification and escalation process for you, ultimately giving you more time to focus on the parts of your infrastructure that you can maintain.
阅读有关重新分配事件的更多信息。
如果您有内部或外部SLA,那么您将承诺在一定时间内响应(和解决)问题。满足此SLA可能意味着要让您的客户满意或防止小问题使您的团队负责支持他们拥有的系统和微服务,从而使您的客户更加复杂。
功能:升级政策
升级策略旨在自动在升级超时期内不响应时,会自动向下一个人升级事件。通过自定义升级超时级别之间的周期,您可以确定事件应自动升级的速度以:
- 强调事件对您的团队的重要性。例如,如果您的升级超时期设置为5分钟,这会使主要的人在问题上升级到下一个级别之前对问题响应的紧迫感(这可能是备份或团队经理)。
- 当主要的呼叫无法立即做出响应时,请引进增援。主要的电话可能是开车或解决单独的问题,无法立即做出响应。Pagerduty不用让警报坐在队列中,而是可以将其自动升级到下一个可用的呼叫响应者。
当您可以自动化并控制升级过程时,您会降低团队开始承认和解决问题所需的时间,从而帮助您的团队满足业务关键SLA。
功能:通知规则
当不应该通过适当的渠道通知问题的人时,遇到SLA可能会出现问题。Pagerduty允许用户创建和自定义自己的通知规则,这些规则确切确定应在其选择的联系方式下确定何时将通知发送给他们 - 电话,短信,电子邮件或推送通知。每个用户都可以配置逐分钟的通知,以确保其分配的事件在裂缝中都没有滑倒,从而减少了他们确认和解决事件而不会破坏SLA所花费的时间。
阅读有关用户配置文件和配置通知规则的更多信息
阅读有关配置通知的最佳实践技巧的更多信息
升级策略和重新分配事件对不同策略或用户重新分配事件的能力旨在创建一个自动化流程以升级警报。但是,当事件花费太长时间解决时,还有另外一项功能也可以帮助安全网。
功能:事件确认超时
事件确认超时确定事件何时应重新宣布该人的呼叫(另外承认该事件的人),如果事件的确认时间太长。当事件被公认时间太长时,这可能表明该人可能已经忘记了这一事件(即当有人在床上闭着眼睛时,一定会发生事件),或者他们花了很长时间才能解决事件。
当事件的确认时间已超时时,该人的电话被重新注明,如果事件在内部未得到确认,该事件将继续升级升级超时时期。
这种自动化的重新通知和重新升级过程可以帮助确保事件在需要升级时不会掉经裂缝。
事件确认超时是服务级设置。默认值为30分钟,但是建议配置您的确认超时期限,以给响应者足够的时间在确认事件后解决事件。例如,如果您服务中的事件通常需要45分钟才能解决,请将ACK超时设置设置为至少50分钟。请注意用户可以小睡事件延迟事件确认超时期限,这些事件需要更长的时间才能解决。