PagerDuty博客

2021年秋季启动:自动化事件响应以加速关键工作

现代企业是数字化企业,因此管理企业意味着掌握为员工和客户提供的关键服务和操作。今天,你需要能够理解你公司的每一个方面,因为在这个世界上,时间对你的生产力,你的收入,最重要的是,你的客户很重要。

PagerDuty操作云——一个基于云的平台,为现代、数字业务管理所有紧急和关键任务的工作——继续发展,以帮助保持世界的始终在线。为了满足这些不断变化的数字需求,我们很高兴为我们的客户提供这一最新版本,它使组织能够随时随地自动化事故响应,并加快关键工作的完成。我们很高兴向您展示PagerDuty如何帮助您连接所有到处都是自动化,提供灵活性你的团队。

看我们的启动网络研讨会看看我们最新的创新对您的业务有何帮助。

连接所有

为了一个企业的兴旺,团队必须管理一个复杂的数字生态系统,包括各种数字服务、基础设施和面向客户的体验。几乎没有出错或停机的空间。为了保持这种快速增长,组织必须掌握自动事件响应——不仅要动员技术团队,而且要让涉众和业务领导了解他们需要的业务关键信息,以使他们的客户满意。

由于现代数字运营在互连服务和专用工具库中具有这些关键需求,因此了解您的服务如何相互连接和影响就显得更为重要。PagerDuty扩展了我们在全面服务所有权方面的领导地位,使团队能够实时了解他们需要的信息和服务。


服务标准

  • 当每个人都在同一个页面上时,服务所有权工作得最好。服务标准使帐户所有者能够大规模配置和执行最佳实践标准,以推动分布式团队的卫生——而不减缓创新。这使得组织可以根据其独特的需求轻松定义、共享和跟踪服务配置的标准,这样各个团队就有了在PagerDuty中设置和管理服务的明确指南。
  • 有时一张图片胜过千言万语,或者千句话,或者服务状态更新。动态服务图允许用户在其数字生态系统中立即发现、绘制和可视化业务和技术服务依赖关系。您可以快速查看服务的运行状况,评估事故的影响半径。并且还要在动态接口中瞄准可能的原因、故障排除、升级和解决。
  • 当秒计数,全球搜索允许用户以灵活且易于使用的方式查找对应于事件,警报,服务和计划的属性。在方便,集中的位置,团队可以快速检索他们需要的事件细节和上下文。

到处都是自动化

自动化应该是数字团队的关键优先级。当今数字加速带来的客户需求增加使得实时操作变得更加重要。诀窍在于使对自动化数字操作的访问民主化,这样个人和团队就可以快速完成工作,而不必等待负担过重的专家来回答他们的升级。尽可能在所有地方都实现自动化,这样你的团队就可以减少工作和滞后,这样他们就可以把时间集中在创新和发展业务上。Rundeck的新产品帮助您的团队自动化、标准化和安全委托操作,以更快地解决事故,加速您的操作。


Rundeck云

  • Rundeck行动使应答者能够在受影响的系统上运行自动诊断,甚至可以在PagerDuty内自行修复事故。自动化工程师可以通过自动化重复的诊断步骤和频繁的补救行动来提高生产率并减少向专家的升级。为了快速启动客户,我们准备了一个打包的解决方案,其中包括一个自动化配置加速器,可以让响应器在短短几天内在Rundeck Actions中运行自动化。
  • Rundeck云帮助自动化工程师和中央运营团队最大限度地提高敏捷性,将实时标准化的自动化操作交给利益相关者(如操作员、开发人员和最终用户)。现在,工程师无需部署或管理Rundeck集群,就可以编写自助服务的自动化流程。Rundeck Cloud安全地连接到防火墙后或vpc内的任何远程基础设施。Rundeck Cloud帮助自动化用户更快地启动,弹性地扩展,并确保可用性,同时在高度安全的部署中保持最新版本。

提供灵活性

DevOps和各种规模的中央IT团队都面临着伴随数字转换而来的三个普遍挑战:1)降噪,2)根本原因分析,3)减少工作量。尽管如此,没有两个团队以相同的方式处理事件响应。数字运营平台必须提供所需的灵活性和连接性,以适应每个团队的定制技术堆栈、文化和流程,以便他们能够实时行动,并有效地推动从接收到解决的事件响应。

我们为PagerDuty的事件智能产品推出了一系列功能,为用户提供了新的降噪、根本原因分析和自动化功能,这将帮助我们的客户以更少的事故和更快的解决方案减少停机时间:


事件编排

  • 客户一直要求我们让他们用我们的活动规则做更多的事情,团队一直在努力实现这一点。我们的新事件编排强大的决策引擎减少了手工事件处理,团队可以创建自定义逻辑,根据事件条件来丰富、修改和控制路由。通过将嵌套的事件规则与机器学习和精确、有针对性的自动化结合起来,以触发诊断和补救等操作,用户可以提高操作效率,减少麻烦。
  • 当急救人员第一次接触到一个事件时,很难知道该把注意力集中在哪里。可能的起源jumpstart您的响应努力与一个自动生成的列表可能的事件起源点,以更快的解决。它使用来自相关事件模式的历史数据来确定在对重大事件进行故障排除时应该首先查看的位置(以及不应该首先查看的位置)。
  • 没有什么比被一些自我愈合的东西打断(或者更糟,被吵醒)更令人沮丧的了,这些东西从一开始就不需要看。Auto-Pause事件自动删除不必要的噪音从拍打警报与点击一个按钮。PagerDuty使用机器学习来检测和暂停过去自动解决的临时警报,以便应答者能够专注于重要的工作。
  • 急救人员在遛狗或带孩子外出时就会发出“咔”声,所以随手就能拿到相关信息是非常方便的。改变移动领域的事件将机器学习动力智能传送到你的掌心。通过移动设备上的事件详细信息,可以快速获取最新的上下文信息,响应人员可以识别潜在的变化相关性,快速对事件进行分类,并在途中减少解决问题的时间。

启动网络研讨会了解更多,并看到这些功能的实际应用。

Baidu