• 尺寸:415多名员工
  • 行业:信息技术与服务
  • 地点:加利福尼亚州旧金山
  • 客户以来:2016
  • 产品:平台
顾客→Cloudlfare

作为针对6,000,000多个Internet资产的全球性能和安全解决方案,CloudFlare可确保客户网站,应用程序和API是安全,性能和高度可用的。在为世界上10%以上的互联网流量提供服务时,必须大规模地为客户提供在线服务,同时在运营中遇到操作之前,可以通过识别和解决事件来保证SLA正常运行时间。CloudFlare的网站可靠性工程(SRE)团队由Michael Daly领导,寻求事件解决方案,这将有助于CloudFlare提高其运营的稳定性,同时为每个客户提供无瑕的体验。

挑战:可见性,沟通和升级

在采用Pagerduty之前,Cloudflare面临三个挑战。第一个是关于光学的。迈克尔解释说:“我们不知道什么时候破裂了,因为工程团队在事件发生时没有收到自动警报。”

第二个挑战是管理事件。一旦发现问题,工程团队就依靠手动流程来解决问题。工程师花了一些时间诊断出问题的原因,如果解决方案需要另一个部门的帮助,则要求SRES通过电话,文字或聊天与该人联系,如果工作时间或周末发生事件发生事件,这将变得困难。

鉴于Cloudflare的快速增长,2013年的客户不到80万客户在2016年超过600万,因此迈克尔的团队很难将可行的,关键的事件与监视工具生成的数据量增加。尽管团队拒绝处理潜在有用的信息,但他们需要分组相关的症状才能获得可行的见解。如果没有Pagerduty的动态活动管理和分类,自动化以及其他功能的帮助,Michael和他的员工必须手动评估每个事件的严重性,这一过程变得越来越慢,无法最能为达成指数增长的客户提供最佳服务。

“平均时间到达已从数分钟下降到秒。”

- 迈克尔·戴利(Michael Daly),工程经理,Cloudflare

使用Pagerduty增加稳定性和响应时间

通过采用Pagerduty,Cloudflare解决了所有这些挑战。Pagerduty确保Michael和他的团队发生事件发生后,始终会通知事件,并且,如果另一个团队应处理事件,Pagerduty会自动将通知转发以节省时间。

Cloudflare SRE团队还使用操作命令控制台,并受益于重点在重大事件申请中突出显示高残酷事件的能力。结果,由于对基础架构,模式和异常检测的全面可见性,他们不再错过严重的事件。迈克尔解释说:“当我们采用Pagerduty时,我们能够采取某些警报并对自己说,这确实很重要。我们现在需要处理它。”

此外,其他功能,例如Pagerdutyhipchat集成使Cloudflare的SRE团队更容易简化与OPS相关的任务,与命令相关的任务,一起学习,在响应事件时一起学习等等。Pagerduty还消除了SRE的需求,可以将合适的专家手动查找联系信息,因为可以单击即可将个人,团队或商业利益相关者告知并招募到事件中。使用Pagerduty,他们可以立即与您取得联系。

最重要的是,Pagerduty减少了Michael和他的团队对事件采取行动所花费的时间,而不是以前的一小部分。迈克尔说:“平均时间到达的时间已经从几分钟下降到几秒钟。”他补充说,更快的响应时间转化为更高的服务可靠性和更好的客户成果 - 这是Cloudflare首先寻求Pagerduty的最终目标和原因。

“我们有几种选择,但是我们选择了Pagerduty,因为我们不得不做较少的工作来使Pagerduty与系统合作。它的格式非常好,API刚刚起作用,并且该应用程序的输出非常容易解释。”

- 迈克尔·戴利(Michael Daly),工程经理,Cloudflare

Baidu