登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
顶级流媒体服务商 Spotify 2025.04 故障复盘报告,吃他 ...
顶级流媒体服务商 Spotify 2025.04 故障复盘报告,吃他人的堑长自己的智
[ 复制链接 ]
麓吆
2025-5-31 23:06:44
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
2025 年 4 月 16 日,Spotify 经历了一次影响全球用户的中断。以下就是发生了什么以及我们将如何解决它。
背景
我们使用 Envoy Proxy 作为我们的网络外围系统。外围是我们的软件接收用户(您!)网络流量的第一部分。然后,它将流量分发到其他服务。我们使用云区域将流量合理地分布在世界各地。
为了增强 Envoy 的功能,我们开发并整合了我们自己的自定义过滤器。一个具体的例子是我们讨论了最近在 EnvoyCon 2025 上详细讨论过的限流过滤器。
发生了什么?
2025 年 4 月 16 日,从 UTC 12:20 到 15:45,我们经历了一次中断,影响了全球大多数用户。在此期间,除了由于时区差异而未受影响的亚太地区外,大部分流量都受到了影响。下面的图表显示了我们外围网络上成功的请求数量,紫色线条代表未受影响的亚太地区。
这次中断的原因是什么?
事发当天,我们更改了 Envoy 过滤器的顺序。这次更改被认为风险较低,因此我们同时将其应用于所有地区。更改顺序触发了其中一个过滤器中的一个错误,进而导致 Envoy 崩溃。与典型的孤立崩溃不同,这次崩溃同时发生在所有 Envoy 实例上。
所有Envoy实例的立即重启,加上客户端应用程序的重试逻辑,给边界带来了前所未有的负载峰值。流量的突然激增随后暴露出一个配置错误。由于Envoy的最大堆大小设置得高于允许的内存限制,Kubernetes不断地重启Envoy实例。一旦有新的Envoy实例启动,它就会接收到大量的流量,这反过来又导致它使用的内存超过了Kubernetes允许的内存限制。然后Kubernetes会自动关闭该实例,如此循环往复。
由于时区和时间的不同,事发时我们亚太地区的流量较低,这意味着该地区的 Envoy 内存使用量从未达到 Kubernetes 限制,这就是为什么该地区未受影响的原因。
故障通过增加总外围服务器容量来缓解,这使得 Envoy 服务器能够降低 Kubernetes 内存限制。终于,Envoy 服务器不再被重复重启。
时间线
12:18 UTC - Envoy 过滤器顺序更改,所有 Envoy 实例崩溃
12:20 UTC - 触发警报,表明入站流量显著下降
12:28 UTC - 形势升级,除亚太地区外,全球无流量
14:20 UTC - 欧洲地区流量完全恢复
15:10 UTC - 美国地区流量完全恢复
15:40 UTC - 所有流量模式恢复正常
今后我们该怎么做?
我们认识到此类中断可能产生的影响,并致力于从中学习。以下是我们正在采取的措施以改进我们的系统并防止将来发生类似问题;
我们已经修复了导致 Envoy 崩溃的 bug
我们已经修复了 Envoy 堆大小与 Kubernetes 内存限制之间的配置不匹配问题
我们将改进我们对边界网关的配置更改的发布方式
我们将改进我们的监控能力,以便能够更早地发现这些问题
就像过去一样,我们将在类似情况下继续提供透明度,以便自我问责并支持对我们服务的持续改进。
正文完。下面是巴辉特总结:
认为影响不大的小变更,通常是最危险的,因为重视程度不够,如这次故障,连灰度都没有,直接推到全局实例
越是对逻辑熟悉的人,越是盲目自信,越是容易犯错,越是对逻辑没那么熟悉的人,越是谨慎小心,越是敬畏线上,越是容易避免犯错
变更流程很重要,流程不信赖每个环节,通过整体协同来保障最终效果。流程也是是保护变更人员的,不遵守流程就是触犯红线
进程堆内存限制超过了 Kubernetes 限制,应该引以为戒,吃别人的堑,长自己的智,抓紧回去写个巡检任务或者配个告警规则,应该有不少进程都支持设置堆内存大小
Spotify 这个故障,看起来没有优先回滚,而是选择先扩容,让 Envoy 实例变多,内存使用降低,低于 Kubernetes 限制,才让 Envoy 实例稳定下来。可能他们最开始并未意识到这个变更才是直接原因,复盘的时候才发现的。他们需要 Flashcat 事件墙那样的产品
这个时间线写得比较简略,毕竟是对外的,可以理解,对内应该有更详细的时间线,如果对内的复盘也是这样的,那就有点不太合格了
兄弟们,生产无小事,加速故障定位很关键,建设了各类零散的指标、日志、链路系统,但是故障定位仍然很慢?试试 Flashcat 的思路,免费交流申请。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
顶级
流媒体
服务商
Spotify
2025
相关帖子
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
2025 年 11 月衬塑管道定制厂家最新推荐:优质企业全面剖析,助企业精准选品
NOIP 2025 游记
.NET周刊【11月第2期 2025-11-09】
NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考
DASCTF 2025下半年赛 OnePanda战队WP
Hadoop大数据在2025-2026年和AI智能问数平台的规划与实践
2025 年 12 月 GEO 服务商 TOP5 评测:分晰牛科技登顶,有客来紧随其后
权威盘点:2025年中国智能舆情监控系统市场深度解析
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
1
561
绘纵
2025-11-28
安全
2025 年 11 月衬塑管道定制厂家最新推荐:优质企业全面剖析,助企业精准选品
3
428
百杲憔
2025-11-29
业界
NOIP 2025 游记
0
359
橘芜
2025-12-01
业界
.NET周刊【11月第2期 2025-11-09】
1
296
汤昕昕
2025-12-02
安全
NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考
2
965
祺簇
2025-12-03
业界
DASCTF 2025下半年赛 OnePanda战队WP
0
15
材部
2025-12-08
业界
Hadoop大数据在2025-2026年和AI智能问数平台的规划与实践
0
679
挚魉
2025-12-09
科技
2025 年 12 月 GEO 服务商 TOP5 评测:分晰牛科技登顶,有客来紧随其后
1
315
孔季雅
2025-12-09
安全
权威盘点:2025年中国智能舆情监控系统市场深度解析
0
311
段一璇
2025-12-10
回复
(4)
普料飕
2025-10-21 00:48:09
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享,学习下。
这帜
2025-11-27 12:47:51
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
东西不错很实用谢谢分享
镝赋洧
6 天前
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
谢谢楼主提供!
洫伍俟
昨天 01:47
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
yyds。多谢分享
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
麓吆
昨天 01:47
关注
0
粉丝关注
24
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
anyue1937
9994893
kk14977
6845356
3934307807
991122
4
xiangqian
638210
5
宋子
9984
6
闰咄阅
9991
7
刎唇
9993
8
俞瑛瑶
9998
9
蓬森莉
9951
10
匝抽
9986
查看更多