• 大小:100名员工
  • 工业:资讯科技及服务
  • 地点:纽约,纽约
  • 客户自:2016
  • 产品:平台
客户→四方

四方开发并交付了一个基于云的平台,用于促进医疗提供商和行为健康提供商在患者护理方面的沟通和协作。它的平台依靠先进的分析、经过验证的治疗方案和现代技术,使医疗服务为提供者、患者和保险公司服务。我们非常关注于全天候为医疗保健提供商提供服务,并确保最大程度的数据安全和隐私,因此必须密切关注它们的内部系统,并确保高效安全地运行。工程主管Mustafa Shabib负责四方的技术服务和系统建设。随着公司的增长,包括Shabib团队的扩大,事件管理解决方案的到位成为了确保平台满足客户需求和期望的首要任务。

克服更快地解决事件的挑战

起初,当Quartet拥有一个由7名工程师组成的小团队时,他们开始使用Sumo Logic和Slack来提供实时IT洞察。工程师们将事故警报通知发送到Slack内部的一个特定频道,这样他们就可以通过手机和台式电脑接收警报。没有随叫随到的轮岗安排,所以当一个问题出现时,每个人都会同时涌向这个问题。最终,经过讨论,一个人将采取行动——这个群集过程意味着服务中断将继续导致平均应答时间(MTTA)和平均解决时间(MTTR)的增加。Sumo Logic和Slack的通知并没有给团队带来紧迫感。Shabib说:“我们没有尽到我们的责任,尽快解决问题,我们可以采取不同的解决方案和流程。”随着公司的发展,事故管理解决方案的缺乏对提供客户和患者所期望的始终在线的平台造成了影响。

实现降低MTTA和MTTR的解决方案

随着Quartet的工程团队不断壮大,部署解决方案以协助维护其关键服务和系统的需求变得迫在眉睫。PagerDuty的选择是为了帮助公司克服围绕快速解决事件的挑战,同时也支持他们的目标,即减少MTTA、MTTR和发生的事件的总体数量。四重奏研究了其他一些解决方案,但发现PagerDuty更成熟,整体上在行业中拥有更好的声誉。

四方的整个基础设施都构建在AWS中,他们利用CloudWatch进行系统级资源警报和监控。这些警报是通过网页主机PagerDuty和第三方云日志管理和分析服务Sumo Logic触发的。他们在所有主机上运行代理,这些代理将日志推送到Sumo Logic,并每分钟创建预定的查询,这将触发事件警报的PagerDuty。

Shabib指出,有一个解决方案可以发出警报和提醒,直到问题得到解决,这有助于在团队中建立一种责任感。这最终有助于强制生成高质量的日志,同时允许个人在问题发生时更快地调试这些问题。该团队还有一个升级政策,当主要联系人无法确认事件时,就会启动升级政策,允许次要的随叫随到联系人采取行动。

“我认为PagerDuty有助于将所有权交到工程师手中。让他们更接近事件,所以当事件发生时,真正构建软件的人会得到通知,并可以解决和改进问题,”Shabib说。这比“群集技术”要好得多,“群集技术”可能会把事件交给没有适当的上下文或知识来解决的人,更不用说当问题可以由一个人处理时,涉及整个团队的低效过程。

该公司的目标是改进其运营指标,减少平均应答时间(MTTA)和平均解决时间(MTTR)。Shabib表示:“在PagerDuty的帮助下,这些指标得到了很大的改善,事故发生率下降了25%。使用PagerDuty的分析功能收集指标,使团队可以跟踪过去的事件,并测量围绕事件管理流程的操作效率。

“PagerDuty是弹性的,保证你将知道当一些问题发生在你的应用程序。目前没有多少服务可以提供这样的保证。”

——穆斯塔法Shabib工程总监,四重奏

提供弹性和有保证的交付

PagerDuty使Quartet能够快速有效地解决事故,并将事故数量减少了25%,同时还降低了MTTA和MTTR。“如果我们没有PagerDuty,我们就会在某种程度上辜负人们,而不仅仅是客户。如果我们任由这些事件发生而不去解决它们,或者没有紧急的时间去解决它们,这将对人们的生活产生负面影响。这不仅仅是生意上的失败,更是病人道德上的失败。”

Baidu