客户→REA集团

REA集团用PagerDuty替换寻呼机

REA集团有限公司是一家跨国数字广告公司,专注于房地产,运营着澳大利亚领先的房地产网站,以及亚洲各地的知名网站。他们的目的是“改变世界体验财产的方式”,他们通过开发创新产品和创造一个充满活力的工作文化来培养创新思维。每天,全球有数百万人使用REA Group的网站来寻找房产,因此该平台必须始终处于运行状态并表现良好,以确保人们可以在任何时间、任何地点搜索房产。因此,在客户不注意的情况下,对影响平台性能的事件采取行动并作出反应是REA集团的关键任务。同时,REA Group也不能忽视其软件开发和管理团队的运营效率,尤其是在面临快速增长的情况下。

挑战:单片事件警报和竖井操作

2014年,在采用PagerDuty之前,REA Group的运营团队依赖于一个单一的、低效的警报通知系统,要求工程师始终携带物理寻呼机。由于基于物理寻呼机的系统很难进行更改和优化,REA团队无法保证将正确的警报传递给正确的人员,从而耽误了事件响应时间。此外,随叫随到的工程师经常收到非关键或不可操作的警报,特别是在非工作时间。REA集团全球基础设施和架构经理Javier Turegano Molina谈到早期的随叫随到体验时说:“晚上简直是一场噩梦——一个非常痛苦的过程。”

团队面临的第二个主要挑战是组织的竖井结构.该组织由许多不同的小组组成,每个小组负责开发公司生态系统的不同部分,但所有事件都传递给一个集中的运营团队。REA专注于打破这些竖井,通过拥抱DevOps文化,将运营的所有权转移给构建和维护应用程序的团队。要使此更改成功,需要将警报直接交付给团队,而不是发送到单独的集中单元。

“我们现在有办法在正确的时间向正确的人发送正确的警报。”

- Javier Turegano Molina, REA集团全球基础设施和架构经理

通过PagerDuty实现敏捷事件管理

2014年,Turegano和他的团队实施了PagerDuty,以提高事件响应时间,并完全接受DevOps的工作方式。

通过PagerDuty, REA可以通过协调来简化整个组织中事件的管理方式事件响应以一种量身定制、灵活的方式。事件升级策略是定制的,以便根据问题的性质将警报交付给正确的人员,包括拥有受影响服务的团队和最适合处理问题的工程师。现在,团队非常重视设计与sla匹配的警报,并确保团队不会在没有真正原因的情况下收到警报。其结果是,所有拥有服务的团队现在都具有完全的责任制。这需要一个关键的心态转变,团队现在明白,如果你构建它,你就会运行它。“能够调整时间表对我们来说是一个非常好的功能,”Turegano解释道。

纸质的寻呼机已经成为过去。事件通知现在通过PagerDuty传递,允许工程师(开发者、qa人员、系统等)通过他们的手机和其他他们已经使用和拥有的设备得到通知。图雷加诺说:“不再使用实体寻呼机改变了我们的生活。”

通过PagerDuty自动收集的指标,Turegano和他的团队改进了他们的操作。PagerDuty提供数据,帮助他们确定平均修复时间(MTTR),这使REA Group可以跟踪其运营团队在事件期间的表现。PagerDuty还聚合来自不同集合的度量监控工具这个团队已经在用了,比如AWS监测NagiosNew RelicSplunk.这些聚合的度量对于执行来说是无价的事故后的尸检为了防止类似的问题在未来再次发生,Turegano说。

REA现在使用PagerDuty来驱动它的所有数字业务.图雷加诺说:“任何可能发生故障的东西都会向PagerDuty发送警报,我们现在有办法向正确的人发送正确的警报。”他补充说,REA不仅在处理警报的方式上变得更加高效,他们还经历了整个DevOps文化的变化,PagerDuty在这一过程中发挥了巨大的推动作用。

如果你想了解更多关于REA如何随叫随到的信息,请查看他们的这篇文章科技博客

Baidu