事件API 500错误GydF4y2Ba
事件报告GydF4y2BaPagerdutyGydF4y2Ba
验尸GydF4y2Ba

概括GydF4y2Ba

在4月28日星期四的00:35 UTC和15:37 UTC之间,由于与负责处理这些请求的上游服务的连接耗尽,活动API间歇性地返回了500s。GydF4y2Ba

发生了什么?GydF4y2Ba

4月7日,部署了对活动API服务的更改,该服务在本服务中无意间规避的利率限制逻辑。这导致其他请求将发送到上游服务,从而执行了速率限制。GydF4y2Ba

4月27日,活动API的交通增加了三倍,并在该级别上持续存在。由于4月7日引入的更改规避了限制率的逻辑,因此这导致了上游请求的增加。从4月28日的00:35 UTC开始,Events API服务间歇性地遇到了与其上游服务之一连接的问题,这是由于已重置连接的。在调查过程中,我们确定流量的增加导致了事件API与一项特定上游服务之间的连接数量,以积累到无法建立新连接的地步。这导致00:35 UTC和15:37 UTC之间的请求中约有0.078%被事件API拒绝,并具有5​​00个状态响应。拒绝的请求未进行处理,因此这些失败的事件无法更新或创建事件。变更事件和其余API没有受到影响。GydF4y2Ba

我们在做什么?GydF4y2Ba

从那以后,我们恢复了无意的变化,现在再次在事件API服务中应用了速率限制,从而减少了相关服务之间的连接。此外,我们正在进行其他监控,以检测较早的连接潜在疲劳,并修改我们的网络配置以防止连接的积累和随后的连接重置。对于这些失败的事件可能对您和您的团队产生的影响,我们深表歉意。对于任何疑问,评论或疑虑,请联系GydF4y2Basupport@pagerduty.comGydF4y2Ba。GydF4y2Ba

发表GydF4y2Ba可能GydF4y2Ba05GydF4y2Ba,,,,GydF4y2Ba2022GydF4y2Ba-GydF4y2Ba22:24GydF4y2Ba世界标准时间GydF4y2Ba

解决GydF4y2Ba
我们一直在观察事件API行为的改进,目前正在将这一事件视为解决。GydF4y2Ba
发表GydF4y2Ba4月GydF4y2Ba28GydF4y2Ba,,,,GydF4y2Ba2022GydF4y2Ba-GydF4y2Ba07:54GydF4y2Ba世界标准时间GydF4y2Ba
更新GydF4y2Ba
我们将继续探索解决方案,以通过事件API提升错误率解决当前问题,并将提供进一步的更新。GydF4y2Ba
发表GydF4y2Ba4月GydF4y2Ba28GydF4y2Ba,,,,GydF4y2Ba2022GydF4y2Ba-GydF4y2Ba07:33GydF4y2Ba世界标准时间GydF4y2Ba
更新GydF4y2Ba
我们目前正在研究该解决方案,以解决事件API的错误率升高。随着它们的可用,我们将分享进一步的更新。GydF4y2Ba
发表GydF4y2Ba4月GydF4y2Ba28GydF4y2Ba,,,,GydF4y2Ba2022GydF4y2Ba-GydF4y2Ba06:50GydF4y2Ba世界标准时间GydF4y2Ba
调查GydF4y2Ba
我们目前在Pagerduty Events API中遇到500个错误。我们正在调查,并将在我们有更多信息时进行跟进。GydF4y2Ba
发表GydF4y2Ba4月GydF4y2Ba28GydF4y2Ba,,,,GydF4y2Ba2022GydF4y2Ba-GydF4y2Ba06:21GydF4y2Ba世界标准时间GydF4y2Ba
该事件受到影响:事件API(事件API(US))。GydF4y2Ba
Baidu