电话上班
我最大的恐惧是在一个挤满百老汇剧院的候选人时获得高优先页面,而Pagerduty逐渐发出更大的声音,大声喊叫警笛声,亚历山大·汉密尔顿(Alexander Hamilton)本人来到我的手中,将我的手机拍了拍,并带走我出门在剧院里”推特
首次进行呼唤似乎令人生畏。但是,通过适当的准备和实践,事件响应者可以拥有积极的经验,可以提供有用的动手经验,可以用来建立更多的弹性生产服务。本节详细介绍了如何准备上呼叫以及在旋转旋转时该做什么。
在待命之前#
放松。呼吸。当您在待命的情况下,在轮班期间,您有责任随时确认通知。但是,要记住生活发生的也是至关重要的。如果您知道自己可能没有事先提供,请与队友一起安排这些活动,以确保在不可用时覆盖范围。如果您的那一刻发生时,无论出于何种原因,都知道存在升级政策,以确保如果您无法做出升级政策,以确保某人最终会做出回应。
期望#
如果您在待命,则希望您在转移期间以最佳能力提供。除了承认通知之外,预计一名通话响应者还具有分类事件并确定适当行动方案所需的技能。有时,适当的行动是确定您无法自行解决事件。还可以预期,响应者将根据需要为其他工程师打开额外的工程师,以解决事件。
做好准备#
适当的准备可以减轻呼叫时的压力和焦虑。如果发生事件,它还有助于减轻混乱。打电话的第一步是确切了解您需要的东西,以便您在凌晨3点在通知时不会摸索。使用此清单来帮助您开始:
手机。仔细检查您不会去任何不会拥有手机服务的地方。如果您要去任何期望使手机保持沉默的地方(例如,电影院),请确保您拥有替代设备,可以让您在不打扰其他人的情况下接收通知(例如,智能手表)。
笔记本电脑。当您待命时,您可能需要某种终端。对于我们大多数人来说,这意味着始终随身携带笔记本电脑。无论您走到哪里,笔记本电脑都应该在一分钟内。
充电器。始终确保您始终使用所有设备(电话,耳机,笔记本电脑等)所需的一组充电器。考虑在所有您无法轻松找到电源插座的时间内投资良好的便携式电池。您在事件中想要的最后一件事是让手机,计算机或热点用完果汁。
互联网。无论是在家中的WiFi,公共WiFi,个人热点还是束缚手机,都可以确保您始终拥有可靠的Internet连接计划。
登录/VPN/仪表板。在班上班次开始之前,至少有一个工作日,请仔细检查您对可能需要的任何系统的访问。这包括但不限于密码库,VPN,仪表板,日志聚合器和相关系统。关于仪表板的主题,请确保您了解这些仪表板上的数据意味着什么(例如,什么是标称状态和什么是异常状态)。另外,请确保您可以访问相关的文档和运行手册。
通知偏好#
通知偏好决定事件发生时如何以及何时通知您。通常可以设置警报偏好,以通过多种方式通知您,包括通过SMS,电话,电子邮件或应用推送通知。确保您选择的任何方法都是将始终可用的方法,并且会在整个电话中引起您的注意。
定制的电话设置#
事件不在乎您的正常工作时间。您应该采取额外的步骤,以确保任何时间始终浮出水面通知。
添加联系电话。将原始联系电话添加到手机的收藏夹列表中。将这些数字添加到收藏夹中可以帮助您绕过不要打扰设置。
旁路不要打扰。遵循正确的程序,以确保您的收藏夹列表中的任何数字都不会绕过不打扰ios,,,,安卓,或者Android应用(例如允许松弛和电子邮件绕过)。
自定义铃声。你们都爱与恨的设置!选择与普通手机通知的明显和不同的东西将有助于浮出您关心的通知。奖励:在您的前几个事件发生后,您永远不会听到同样的声音。
通知惊人#
如果您选择的各种通知方法都设置为同时提醒您,则您会增加所有这些方法的风险。例如,您可能在床上,睡着了。惊人的通知可以帮助您成功地引起您的注意。例如,从SMS通知开始。一分钟后,发送应用程序推送通知。一分钟之后,打电话给您的电话。等等。
在呼叫期间#
您已经开始了电话。怎么办?您在凌晨2点醒来时,您的手机会提醒您发生事件的声音。你的眼睛有雾,你的心正在奔跑。这可能是一个可怕的情况。但这不会是因为您使用上述建议提前准备。您承认通知。现在我们开始工作了!
分类#
在分类过程中,预计响应者将评估手头的情况。以下非措施列表可能有助于确保在响应事件并开始分类时进行一些基本的理智检查。
- 您是否验证了通知的来源是正确的?
- 您是否检查过是否有任何当前或异常活动(例如,检查的休闲或电子邮件)?
- 这是否需要立即采取行动?
- 您的初步调查是否表明您的团队负责的特定服务问题/问题?
- 如果您的团队对此问题负责,您是否可以确定解决问题的正确行动方案?
- 如果这个问题超出了您的能力,您是否可以为团队中的另一个成员打开帮助吗?
- 是否超出了团队负责或可以解决问题的范围的问题?
采取行动#
当您有潜在的解决方案时,您的任务是将服务返回到完整的操作状态。您有权潜水,以确定需要修复的问题,根据需要参与其他队友,并在必要时升级到适当的严重性水平。您还有权推迟针对非时代敏感和非影响力问题的其他工作。
在解决次要事件时,您应该在实用的情况下保留基本笔记。与您的团队共享信息至关重要,例如最初触发事件的症状,您采取的调查步骤以及成功解决事件的措施。这些笔记对使您的运行簿具有最新状态非常有帮助。您应该努力不断地重构并改善团队的知识库和文档。如果您的文档或代码库的心理模型与事件过程中发现的内容不符,请添加冗余链接和指针。
如果一个小事件超出了团队负责或可以解决问题的范围,则可能需要启动一个重大事件。
待命后#
在通话转换结束时,响应者应该有一个通话审核会议。练习适当的电话交接,为团队提供了直接从上一班的响应者那里学习的机会。会议使您的团队在趋势或产生重大负面影响之前就可以遇到问题。
是否有需要减少警报疲劳的噪声警报?这项服务是否不必要地为不可行的事件发送通知?这篇综述的主要目的是了解这种转变的待命负载,确定疼痛的任何来源,响应者之间的转移知识以及改善未来待命的转变的计划。
呼叫礼节#
一些额外的考虑可以使参与每个人的所有人经历更好,因此我们为下面提供了一些有用的礼节礼节技巧:
对目前的人们友善。如果他们中午看上去很累,他们可能会在半夜分手。
承认事件时要注意。如果您没有在呼叫中,并且看到事件,请注意如果您没有与任何人进行协调的回应,请不要确认收据。这有点违反直觉,因为您可能只想提供帮助。您可以通过跳到事件桥上或主动伸出手来提供帮助,让任何人都知道您有空。但这是他们的演出。
如果您正在尝试生产服务或可能触发通知的操作,则应在实验期间“拿走打印机”。通知呼叫的人并安排替代。
当您需要额外帮助时,请随时升级。做任何需要快速解决事件所需的事情都没有耻辱。同样,如果别人寻求帮助,切勿看不起别人。经理应积极支持这一政策。
始终考虑为别人的电话旋转覆盖,如果他们要求的话,您有能力。我们都有凌乱,不可预测的人类生活。向前付款是因为,迟早需要您的恩宠。
如果您在轮班期间进行了打电话来应对事件,那么您有责任骑行,即使您的轮班还剩几分钟。如果他们同意,您可以将事件交给下一个人,但您永远不会假设其他人会接管您的责任。