飞社-令人惊奇的创意工作者社区-程序员这次 cloudflare 宕机是什么原因造成的？

rick13 · 2025-11-19 08:01:44

等 blog 呗，cf 对于事故复盘 blog 还是认真的

x86 · 2025-11-19 08:02:16

大概率是阻止我航班起飞🥵

noqwerty · 2025-11-19 08:23:11

官方博客的 postmortem 已经发布了： https://blog.cloudflare.com/18-november-2025-outage/

acthtml · 2025-11-19 08:28:22

这 cto 写的说明真实简洁明了。

aloxaf · 2025-11-19 08:39:34

https://i.imgur.com/pIoqPAX.png 在错误处理上偷懒导致的（ 😂

villivateur · 2025-11-19 08:39:48

@noqwerty 简单看了下，应该是错误配置导致一个文件体积迅速增长撑爆磁盘？如果是这样的化，应该比较好解释为什么中途好了一阵子，可能就像之前的段子说的，在硬盘里提前放一个没用的大文件，硬盘不够用了就先删除，可以临时撑一阵子。

realpg · 2025-11-19 08:40:34

这要是个中国云厂商估计 V2 帖子得多一百倍

hafuhafu · 2025-11-19 08:41:37

看了一下博客，我没理解错的话：原因：说是权限变更导致数据库某个查询输出了意外的多条数据，然后导致产生的配置文件体积超级加倍，并下发到了所有机器上。然后机器上有个跨网络路由软件会读这个配置文件，但是软件内对读取文件的大小进行了限制，因为异常的文件太大了，超过了这个限制，所以就导致路由软件失效了，然后就全崩了。排查：他们最早以为是被大规模 D 了，后面排查到了正确的原因，用配置文件的早期版本替换了。时间线：大规模出现故障 2025 年 11 月 18 日 11:20 UTC 核心流量恢复正常 2025 年 11 月 18 日 14:30 UTC 所有系统正常运行 2025 年 11 月 18 日 17:06 UTC

Debug1998 · 2025-11-19 08:43:16

昨天晚上小黄网进不去，我以为我梯子挂了。https://i.imgur.com/agAJ0Rd.png

kamikaze472 · 2025-11-19 08:44:48

@realpg #36 我个人感觉, 之前阿里云崩了, 远没有 Cloudflare 崩了帖子多

浏览过的版块