CloudFlare用Pagerduty |Pagerduty - manbetx官网网址,manbetx3.0

CloudFlare用Pagerduty将平均时间到达降低到秒

尺寸：415多名员工
行业：信息技术与服务
地点：加利福尼亚州旧金山
客户以来：2016
产品：平台

作为针对6,000,000多个Internet资产的全球性能和安全解决方案，CloudFlare可确保客户网站，应用程序和API是安全，性能和高度可用的。在为世界上10％以上的互联网流量提供服务时，必须大规模地为客户提供在线服务，同时在运营中遇到操作之前，可以通过识别和解决事件来保证SLA正常运行时间。CloudFlare的网站可靠性工程（SRE）团队由Michael Daly领导，寻求事件解决方案，这将有助于CloudFlare提高其运营的稳定性，同时为每个客户提供无瑕的体验。

挑战：可见性，沟通和升级

在采用Pagerduty之前，Cloudflare面临三个挑战。第一个是关于光学的。迈克尔解释说：“我们不知道什么时候破裂了，因为工程团队在事件发生时没有收到自动警报。”

第二个挑战是管理事件。一旦发现问题，工程团队就依靠手动流程来解决问题。工程师花了一些时间诊断出问题的原因，如果解决方案需要另一个部门的帮助，则要求SRES通过电话，文字或聊天与该人联系，如果工作时间或周末发生事件发生事件，这将变得困难。

鉴于Cloudflare的快速增长，2013年的客户不到80万客户在2016年超过600万，因此迈克尔的团队很难将可行的，关键的事件与监视工具生成的数据量增加。尽管团队拒绝处理潜在有用的信息，但他们需要分组相关的症状才能获得可行的见解。如果没有Pagerduty的动态活动管理和分类，自动化以及其他功能的帮助，Michael和他的员工必须手动评估每个事件的严重性，这一过程变得越来越慢，无法最能为达成指数增长的客户提供最佳服务。

“平均时间到达已从数分钟下降到秒。”

- 迈克尔·戴利（Michael Daly），工程经理，Cloudflare

使用Pagerduty增加稳定性和响应时间

通过采用Pagerduty，Cloudflare解决了所有这些挑战。Pagerduty确保Michael和他的团队发生事件发生后，始终会通知事件，并且，如果另一个团队应处理事件，Pagerduty会自动将通知转发以节省时间。

Cloudflare SRE团队还使用操作命令控制台，并受益于重点在重大事件申请中突出显示高残酷事件的能力。结果，由于对基础架构，模式和异常检测的全面可见性，他们不再错过严重的事件。迈克尔解释说：“当我们采用Pagerduty时，我们能够采取某些警报并对自己说，这确实很重要。我们现在需要处理它。”

此外，其他功能，例如Pagerdutyhipchat集成使Cloudflare的SRE团队更容易简化与OPS相关的任务，与命令相关的任务，一起学习，在响应事件时一起学习等等。Pagerduty还消除了SRE的需求，可以将合适的专家手动查找联系信息，因为可以单击即可将个人，团队或商业利益相关者告知并招募到事件中。使用Pagerduty，他们可以立即与您取得联系。

最重要的是，Pagerduty减少了Michael和他的团队对事件采取行动所花费的时间，而不是以前的一小部分。迈克尔说：“平均时间到达的时间已经从几分钟下降到几秒钟。”他补充说，更快的响应时间转化为更高的服务可靠性和更好的客户成果 - 这是Cloudflare首先寻求Pagerduty的最终目标和原因。

“我们有几种选择，但是我们选择了Pagerduty，因为我们不得不做较少的工作来使Pagerduty与系统合作。它的格式非常好，API刚刚起作用，并且该应用程序的输出非常容易解释。”

- 迈克尔·戴利（Michael Daly），工程经理，Cloudflare

操作云

呼叫管理

事件响应

Runbook自动化

智能事件管理

解决方案

DevOps

aiops

客户服务OPS

万博manbext体育3.0

服务所有权

零售

金融服务

卫生保健

政府和教育

非营利组织

资源

资源库

社区

操作指南

开发人员平台

演示

博客

支持文档

服务

万博娱乐app合规码

CloudFlare用Pagerduty将平均时间到达降低到秒