PageRduty.

自动化是复杂现代IT系统管理中的关键组成部分。自动化帮助团队避免错误,增加可靠性,并在日常任务中减少劳动。在构建生产环境时可能依赖于许多自动化工具,因此该环境的生命周期将包括未计划的事件和经常手动执行的其他工作。

事件期间的人类错误可以增加解决时间,甚至会使问题变得更糟。当我们的系统在非工作时间内遇到事件时,我们的团队可能远离计算机,或不可用,甚至睡着。我们希望尽量减少需要人为干预的事件数量,并限制警报响应者小组只需要人类元素的警报。

谁是这个?

此资源用于开发或操作希望在入射响应过程中有效利用自动化工具的软件应用程序的团队。

涵盖了什么?

自动化使用案例

许多团队已经使用了很多自动化来帮助通过可靠,可重复的方式完成任务。本节涉及一些示例:

自动化事件响应过程

自动化可以帮助您的团队更有效且有效地回应事件。本节涵盖了回应事件的工作流程:

事故修复自动化

实际上修复了警报后的问题是您团队不间断睡眠之旅的下一步。本节是对管理事件修复过程的自动化进行更深入的讨论。

自动事件分辨率入门

当您正在努力解决事故修复时,请记住一些事情:

受监管环境中的自动化

当团队自动化工作流程时,监管可以提出独特而有趣的挑战。

自动化挑战

不是每个人都会热烈了解自动化他们的工作的前景 - 即使他们并非特别喜欢一些任务。向已经建立的团队引入自动化目标存在挑战。其中一些挑战得到了很好的理解,其他挑战更加摘要。我们可以参考一些关于一些提示和指导的系统自动化研究数十年。

参考资料和进一步阅读

我们用于创建本文档的一些引用。如果您有添加到此列表的建议,请告诉我们!

执照

此文档是在Apache许可证2.0下提供的。简单的英语,这意味着您可以使用和修改此文档并在商业上使用它并进行私人使用。但是,您必须包含任何原始版权声明和原始许可证文件。

无论您是PageRduty客户,我们都希望您有能力在您自己的公司内部在内部使用此文档。您可以查看所有的源代码这篇文档在我们的GitHub帐户。随意攻击存储库并将其作为您自己的内部文档的基础。

Baidu