事件解决的自动化

事件修复的自动化

响应事件和警报也为某些环境提供了自动化的机会。尽管我们在技术产品的创建步骤中找到了自动化,但在系统的长期维护中,它不太常见。自动化改善了运行系统的健康状况,并帮助我们更好地管理出现的问题。在考虑事件修复自动化时,请记住,在复杂的系统中,失败是不可避免的。在此阶段,我们的自动化目标不是防止失败,而是要在发生故障时迅速处理失败并尽可能地对其进行优化。

为生产系统创建监视和健康检查是无处不在的,因为不算其作为客户产品空间的组织仍然很大程度上依赖IT服务具有功能性和表现性。只要所有服务都启动并运行,一切都很好。当出现问题时,接下来会发生的事情可能是混乱,或者可能是与响应者联系和修复问题的良好管理的做法。自动化可以从第一个BLIP或打ic中使用,包括如何联系正确的团队,如何响应他们以及是否还有其他基础架构来支持故障排除和补救。即使在修复的这些早期阶段,更效率和有意使用自动化也会减少承认和修复出现问题所需的时间。

当团队试图解决事件时,安全进行更改尤其重要,但是在故障排除期间进行的计划外的更改通常是手动进行的。当服务不可用或不以某种方式执行时,由于手动过程而犯错可能会延迟分辨率。它甚至可以使事情变得更糟。如果事件响应者犯了复制和处理错误,请在不正确的终端中跳过一步或执行命令,则可能发生任何数量的不可预测的事情。因此,我们希望在补救过程中采用自动化来减轻这种不可预测的风险。

我们希望自动补救措施,因为我们通常希望自动化的许多原因 - 随着系统数量和复杂性的增加,运行和维护它们所需的信息量也会增加。从某些输入中自动改性警报的决定可能包括几点:

团队可能会发现他们的警报具有可以自动化的一致解决方案。创建此自动化(通过数量的工具)从团队的立即关注中删除了这些警报,并减少了我们所谓的“警报疲劳”的潜力。

警报疲劳发生在许多行业中,工人会定期暴露于警报和警报,直到警报失去意义。大量警报或高频警报会导致响应者随着时间的推移而变得脱敏。随着响应者的脱敏,他们的响应时间变得更长,当有重要警报时,错误的可能性会增加。当实时24小时而不是被添加到工作队列,延迟到工作时间或以其他方式管理时,我们会看到这一点。

IT团队可以部署自动化,以打击警报疲劳的因素。虽然仪表板似乎是一个好主意,因为它可以帮助消除警报中的蜂鸣声,钟声,鸣叫和嗡嗡声的刺耳声,但很难及时使用充满红色状态报告或闪烁问题的屏幕。当使用仪表板时,按严重性和紧迫性对警报进行分类的团队也可以将其归类为未来自动化的目标。当其他所有事件都通过自动化流程减轻所有内容时,团队将具有更大的能力来应对确实需要人类注意的警报。

当解决方案应比人类执行动作更快时,我们还希望使用自动化。这可能包括当服务处于沉重负载下或禁止反复尝试不良请求的IP地址之类的生产活动中。根据您使用IAAS平台的使用,您可能已经使用了服务中内置的其中一些功能。

在某些任务上,机器比人类快,他们不介意无聊和重复的工作。当我们建立自动化时,我们将重点放在辛劳最多的任务上(即那些需要人类做很多工作的任务,但其价值相对较低)。这些是可以通过自动化流程完成的任务。

自动化可以帮助团队以可预测且定义的方式对事件做出响应。您的团队可能已经在使用文档或指南之类的指南,例如开出要解决问题的步骤。当可以使用自动化执行运行书时,人类响应者的分心和警报较少。特别是对于低价值的补救任务,例如重新启动服务或清除磁盘空间,这项工作更好地分配给自动化。然后,自动化也可以应用于多组相似系统。

Baidu