Pagerduty博客

通过Pagerduty®自动化动作使团队的自动化功能民主化

面对现实吧。事件可能很昂贵 -真的昂贵的。但是,生产环境中事件的高昂成本并不总是是由于服务折衷或负面客户体验所致。根据Pagerduty响应数据,事件的寿命中有50%以上是在调查和动员阶段与第一响应者一起度过的(我们称之为“分类”)- 换句话说,确定可能出了什么问题并呼吁合适的人修复它。

考虑到上述统计数据,很明显,事件生命周期的阴影费用是您人民的阴影费用时间- 发现事件的工程师,对问题并确定根本原因做出回应的呼叫工程师以及被循环到事件生命周期中的所有其他主题专家。而且,当您在整个响应时间轴上撒上手动流程时,情况可能会变得昂贵。非常昂贵。

事实是,您的开发组织的时间与企业的底线一样有价值和重要。随着服务和应用程序开发的复杂性不断增长,“节省时间”成为跟踪,量化和不断改进的更重要的指标。找到一种自动化事件响应过程不同方面的方法可以帮助您节省团队的时间并全面增强效率。你问你怎么做?进入Pagerduty®自动化动作(以前是Pagerduty Rundeck动作)

Pagerduty®自动化动作

Pagerduty®自动化操作附加操作将您的一线响应者连接到Pagerduty中的纠正自动化。响应者可以使用安全委派自动化本身进行分类和解决事件,而不是将升级升级为专家。结果,团队减少了MTTR,降低了专家的中断,并快速诊断和补救事件。

Pagerduty®自动化动作将自动诊断和补救连接到事件响应工作流程。自动诊断是生产服务的一组动作,当事件发生时,您的响应者可以自动调用。响应者不必升级为手动运行常见测试的专家专家,而是可以安全,安全地从Pagerduty中自动调用此自动化,并看到实时回复回到事件时间表。

运行指定的操作,例如服务重新启动,诊断等

通过这些诊断测试,响应者可以更有效地将事件升级给合适的专家以解决,而不是涉及大型群体或升级典型的响应者阶梯。专家将能够看到这些常见诊断的结果,并可以立即开始。

此外,团队还可以援引这些行动并在事件上进行合作直接从他们的松弛实例中这消除了通过窗口之间的终端和上下文切换访问服务的需求,从而创造了一种更快,更有效的方法来解决事件,同时还可以减少向专家的升级。随着您对自动诊断的使用,您可以开始将其用于自动补救和使用事件智能触发的事物。

Pagerduty®自动化行动有助于解决组织响应过程中的四个主要问题领域:

  • 孤立的专业知识。一线响应者不知道组织环境中每个应用程序或服务的基因组成。
  • 对专家的一致中断。响应者向工程师升级思考是该应用程序或服务的专家,花时间摆脱创新和分辨率的放缓。
  • 重复和手动诊断步骤。事件开始时的第一步通常是相同的。在您开始解决事件之前,必须采取同样的手动步骤。
  • 复杂而庞大的生产环境。知道要访问哪些系统以及采取哪些操作可能需要时间。此外,并非每个响应者都有权力访问特定的生产系统,这通常使升级过程变得困难且耗时。

Pagerduty®自动化操作通过以下方式解决以上问题:

  • 跨团队委派自动化。将自动化程序部署到通常由专家调用的一线响应者。
  • 更快地解决事件,升级较少。通过为共同的请求和操作创建自动化,团队可以花更少的时间来弄清楚谁升级到解决方案,并在修复程序上更多时间。
  • 触发人类辅助/自我修复自动化。使用Pagerduty的诊断动作在响应者之前进行诊断动作活动编排
  • 安全地牢记安全的自动化。响应者只看到他们有权在事件中援引受影响系统的授权,并且所有动作均已记录以保持强大的安全姿势。

要用一些快速的子弹来总结以上的总结®自动化动作有助于团队:

  • 减少响应时间最高为30分钟,MTTR最多可达25%
  • 减少梯子上升的事件的数量
  • 分发跨回应团队的主题专业知识
  • 扳机在响应者之前,人类辅助和自我修复自动化
  • 调用防火墙和VPC背后的自动化
  • 部署自动操作代替手动程序
  • 丰富事件文档,用于验尸和减少操作员工作的事件文档

要了解有关Pagerduty自动化投资组合的更多信息,访问我们的自动化中心。如果您想了解更多有关狗万2.0 以及如何帮助您的团队节省时间和金钱,联系您的客户经理或者狗万2.0

Baidu