在4月28日星期四的00:35 UTC和15:37 UTC之间,由于与负责处理这些请求的上游服务的连接耗尽,活动API间歇性地返回了500s。GydF4y2Ba
4月7日,部署了对活动API服务的更改,该服务在本服务中无意间规避的利率限制逻辑。这导致其他请求将发送到上游服务,从而执行了速率限制。GydF4y2Ba
4月27日,活动API的交通增加了三倍,并在该级别上持续存在。由于4月7日引入的更改规避了限制率的逻辑,因此这导致了上游请求的增加。从4月28日的00:35 UTC开始,Events API服务间歇性地遇到了与其上游服务之一连接的问题,这是由于已重置连接的。在调查过程中,我们确定流量的增加导致了事件API与一项特定上游服务之间的连接数量,以积累到无法建立新连接的地步。这导致00:35 UTC和15:37 UTC之间的请求中约有0.078%被事件API拒绝,并具有500个状态响应。拒绝的请求未进行处理,因此这些失败的事件无法更新或创建事件。变更事件和其余API没有受到影响。GydF4y2Ba
从那以后,我们恢复了无意的变化,现在再次在事件API服务中应用了速率限制,从而减少了相关服务之间的连接。此外,我们正在进行其他监控,以检测较早的连接潜在疲劳,并修改我们的网络配置以防止连接的积累和随后的连接重置。对于这些失败的事件可能对您和您的团队产生的影响,我们深表歉意。对于任何疑问,评论或疑虑,请联系GydF4y2Basupport@pagerduty.comGydF4y2Ba。GydF4y2Ba