|
看了一下博客,我没理解错的话:
原因:说是权限变更导致数据库某个查询输出了意外的多条数据,然后导致产生的配置文件体积超级加倍,并下发到了所有机器上。然后机器上有个跨网络路由软件会读这个配置文件,但是软件内对读取文件的大小进行了限制,因为异常的文件太大了,超过了这个限制,所以就导致路由软件失效了,然后就全崩了。
排查:他们最早以为是被大规模 D 了,后面排查到了正确的原因,用配置文件的早期版本替换了。
时间线:
大规模出现故障 2025 年 11 月 18 日 11:20 UTC
核心流量恢复正常 2025 年 11 月 18 日 14:30 UTC
所有系统正常运行 2025 年 11 月 18 日 17:06 UTC |