客户→Ecobee

ecobee成立于2007年,是一家加拿大家庭自动化公司,为住宅和商业应用提供Wi-Fi支持的恒温器,帮助用户最大限度地提高舒适度,减少碳足迹,并节省成本。在这个易于使用的产品背后,是关键任务应用程序和服务的持续部署、区域分布的基础设施和自修复服务器集群,这些服务器集群的操作是为了维护全球客户的服务并使其保持在线。

ecobee技术副总裁Jordan Christensen负责公司的平台基础设施,包括自动化、自修复、端到端服务交付和可用性。他解释道:“我的团队的总体任务是构建可靠的容错基础设施,而PagerDuty确实是我们用来测量和监控这种可靠性的关键平台。”

所面临的挑战

因为ecobee的首要产品负责数百万住宅和商业建筑的温度控制,它的服务需要始终在线,并为用户提供。一个小的故障或应用程序故障都可能导致收入的损失——因此,要在潜在事件影响客户之前提前响应它们,几分钟就很重要了。

为了为用户提供最佳的客户体验,ecobee需要从主动和预防的角度来处理事故管理。为此,ecobee的工程团队需要一个平台,使ecobee的整个基础设施和服务能够实时可见。

用Terraform编写基础设施代码

Jordan的平台团队非常依赖PagerDuty起程拓殖的集成将他们的PagerDuty实例作为代码构建到更大的基础架构中。通过将PagerDuty构建到Terraform中,团队可以更好地了解他们的基础设施的实时运行状况,并能够全面了解随叫随到的轮换和日程安排,因为这些都是在Terraform环境中定义的代码。

该技术使团队能够减少随叫应变管理的手工工作,并在维护不同应用程序和服务之间的随叫应变轮岗和调度方面为自动化创造机会。Jordan解释说:“将PagerDuty作为代码嵌入到基础设施中,而不是作为一个完全不同的接口,这使它成为基础设施的中心部分,而不是作为一个辅助服务挂在那里。”这种改进的可见性和在ecobee代码库中操作代码的能力使他的团队能够在不可避免的事件发生时真正了解基础设施的健康状况。在这种集成的帮助下,ecobee团队正在逐步致力于在正常运行时间和可用性方面实现4个9s。

传呼机职责的好处

有了PagerDuty, ecobee能够主动协作处理事件,并在当前事件的上下文中完全启用。乔丹回忆道:“这些见解是有针对性的、具体的,而不是泛泛的。”将来自每个容器、服务器、应用程序和微服务的所有信号集中到PagerDuty中,使他的团队能够很容易地诊断问题,并在问题影响到客户之前自动地聘请合适的人来纠正问题。

Jordan的团队已经看到了PagerDuty的几个好处,包括:

  • 在整个事件管理生命周期中增强工程团队和其他关键涉众之间的可见性和沟通
  • 一个自动化的响应过程,它减少了手工工作,提高了生产力和工作-生活平衡
  • 由于责任制和全服务所有权的实践,被授权进行更好的更改的团队
  • 为初级工程师创建一个安全的空间来升级事件,并在他们觉得需要指导时直接与高级工程师合作,有助于改善团队健康

高度关注团队健康状况

随着PagerDuty在整个工程组织以及其他关键业务部门和利益相关者中实施,jordan注意到,领导层已经能够把重点放在团队健康、工作与生活的平衡上,并为初级工程师创造成长机会。Jordan解释道:“有了PagerDuty,员工觉得随时待命很安全,因为他们知道他们可以将问题升级到高级开发人员,提供指导,并通过问题来解决它。”小事件往往会转化为学习的机会,从而提高组织的士气和团队健康。

“如果我们没有PagerDuty,作为一家公司,执行适当的事件管理和响应将是极其困难的。”

- - - - - -约旦克里斯坦森技术副总裁

传呼机的未来与ecobee

Ecobee计划在更大的组织内继续使用和扩展PagerDuty。具体来说,工程团队想要学习更好地利用寻呼机任务现代事件响应因此,它们可以为特定的服务实现响应,并在响应操作中自动执行某些任务。团队还计划利用PagerDuty的Slack集成来集中通信,并在重大事件期间提高团队间的协作。

此外,ecobee还希望在其PagerDuty实例中规范化一个事后构建,以便将整个事件生命周期集中到一个平台上。Jordan的团队也在寻求充分利用PagerDuty REST API的能力,以鼓励自动化,并在组织的其余部分建立业务效率。Jordan解释道:“我们甚至还没有开始触及PagerDuty的表面。

有兴趣了解更多关于PagerDuty如何改善团队的健康状况和事件管理流程的信息吗?报名参加今日免费试用两周

Baidu