笔记:以下内容最初发布于我们的博客2014年8月20日。
生活在富含数据的世界中是一种祝福和诅咒。灵活的监控系统,开放式API和简单的数据可视化资源使其简单地图形是您想要的任何内容,但太多的数据很快就会变得嘈杂和不可动作。
我们博客,说,并思考您应该监视的内容以及为什么要从系统的角度来看,但是如何监控您的操作表现的数据?在我们建立新的客户时,我们与大量的PageRduty客户合作高级报告功能,包括一些最复杂的运营团队。我们希望分享一些特定的指标和指导方针,帮助团队衡量并提高其运作绩效。
原始事件计数
团队收到的事件数量的尖峰或持续向上趋势告诉您两件事:该团队的基础设施有严重的问题,或者他们的监控工具是错误的和需要调整。
由于组织增长,但事件的成长可能会上升,而是真正的事件每个响应者当组织识别和修复低质量警报时,应保持不变或向下移动,构建Runbooks,自动化常见修复程序,并变得更加运行。
在查看事件时,重要的是要通过团队或服务来打破他们,然后钻入潜在的事件以了解导致问题的原因。周三是由于部署失败的飙升,在跨越多个团队中造成的问题,或者只是在低严重服务上拍打监测系统?比较服务和团队的事件数量也有助于将数字放在上下文中,因此您了解特定的入射负载是否比组织平均值更好或更差。
分辨率的平均时间(MTTR)
解决时间是运营准备的金标准。发生事件时,您的团队需要多长时间修复它?
停机时间不仅伤害了您的收入,而且还伤害了客户忠诚度,因此确保您的团队可以快速对所有事件做出反应至关重要。对于主要的联赛足球,他们的粉丝预计它在现场比赛期间有20个网站属性。贾斯汀懒惰,工程总监和他的团队一直在努力提高解决时间的时间,因为“游戏中间中间停电的成本是无法估量的。”
虽然解决时间很重要,但仍然很重要,而且通常很难规范,而公司将根据他们环境的复杂性,组织,行业和其他因素的方式看到TTR中的差异。但是,标准化的流册,基础架构自动化,可靠的警报和升级政策都将帮助驱动此次数。
是时候确认/时间响应
这是大多数团队忘记的公制 - 将团队承认并开始工作的时间。
虽然事件响应者可能并不总是对特定事件的根本原因控制,但它们100%负责的一个因素是他们的确认和响应的时间。运作成熟的团队对他们的团队成员的时间有很高的期望,并使自己对响应时间的内部目标负责。
如果您使用像PageRduty这样的事件管理系统,则升级超时是强制执行响应时间目标的好方法。例如,如果您决定在5分钟内应答所有事件应响应,则将超时设置为5分钟以确保警告下一个人的内容。要衡量团队的性能,并确定是否需要调整目标,可以跟踪升级的事件数量。
升级
For most organizations using an incident management tool, an escalation is an exception – a sign that either a responder wasn’t able to get to an incident in time, or that he or she didn’t have the tools or skills to work on it. While escalation policies are a necessary and valuable part of incident management, teams should generally be trying to drive the number of escalations down over time.
有一些情况,升级将成为标准操作实践的一部分。例如,您可能有一个NoC,第一层支持团队甚至是基于其内容的传入或升级的传入事件的自动修复工具。在这种情况下,您需要跟踪应升级哪些类型的警报,以及那些警报的正常数字应该是什么样的。
用PageRduty跟踪您的操作表现
PageRduty始终支持通过我们的全面覆盖API提取丰富的事件数据,我们还向所有客户提供了有限的应用程序报告。