Cloudflare 大宕机背后：为何把所有鸡蛋都放在一个篮子里？

【文章来源：金十数据】

AI 播客：换个方式听新闻 下载 mp3

音频由扣子空间生成

周二，Cloudflare(NET.N) 成为过去一个月内又一家发生大规模崩溃的网络基础设施巨头，连续数小时让包括 X、ChatGPT、Spotify、Canva，甚至用于追踪故障的 DownDetector 在内的整站全部显示错误信息。

这是近期一连串服务中断事件之一，网络性能监测平台 Catchpoint 的首席执行官兼联合创始人梅赫迪·达乌迪（Mehdi Daoudi）表示，这应该成为企业的警钟。

达乌迪说，所有人都把鸡蛋放在同一个篮子里，一旦出问题就感到惊讶。这是公司自身的责任，要确保具备冗余和弹性。

此次故障发生前，微软 Azure 和亚马逊 AWS 在不到一周的时间里先后出问题，导致依赖这些大型服务商维持网站运行的互联网大面积瘫痪。

Cloudflare 同样支撑着互联网中相当重要的部分，它通过内容分发网络保障网站在线，同时提供多种服务，包括 DDoS 攻击防护和 DNS。去年该公司表示，大约 20% 的网络流量经由 Cloudflare 运行，它还为财富 500 强中 35% 的企业提供服务，除此之外还有「数百万」其他客户。

Cloudflare 的高速性能和安全记录让它成为全球网站的热门选择，但这次故障再次凸显了网络基础设施行业的高度集中。

在 AWS 故障导致安全通讯应用 Signal 停止服务后，该公司总裁梅雷迪思·惠特克（Meredith Whittaker）表示，公司别无选择，只能依赖大型云服务提供商来运行。她写道，实际上整个技术栈几乎被三到四家企业所掌控。即使是微小偏差也可能带来巨大的影响。

最近连续发生的故障仍然明确地表明，企业必须制定备份方案。达乌迪在接受采访时表示，故障是必然存在的，而且只会越来越频繁，影响范围也只会越来越大，问题是你准备怎么应对？

虽然微软和 AWS 将各自的故障归因于与 DNS 相关的问题，DNS 是将网站域名转换为 IP 地址的系统，但 Cloudflare 将此次的中断追溯到一个配置文件。

Cloudflare 发言人杰基·达顿（Jackie Dutton）则表示，周二故障的根源在于一个用于管理威胁流量的自动生成配置文件，该文件超出了预期的条目大小，最终触发了处理 Cloudflare 多项服务流量的软件系统崩溃。

这种文件问题竟然可以让互联网大片区域瘫痪，看似荒谬，但对于像 Cloudflare 这样的大公司而言，却完全可能发生。

SANS 研究院人工智能与研究主管罗布·李（Rob Lee）表示，运营 Cloudflare 这种规模的基础设施时，哪怕是极其轻微的偏差也会产生巨大后果。这些平台为了速度而构建，所以任何延迟或中断决策的因素都可能迅速级联。在高性能环境下，哪怕是毫秒级的延迟，也可能演变为完全的流量阻断。

他还表示，Cloudflare 所描述的这种配置文件，决定了路由安全策略、负载均衡决策以及流量如何在全球范围分配。如果文件突然变大，就可能触发解析变慢、内存问题、CPU 争用，或是在依赖它的系统中出现逻辑错误。

AWS 同样将最近一次大范围中断归咎于「自动化故障」，这是这类错误迟早会再次发生。达乌迪说，每次 Cloudflare 出问题你都要抱怨吗？还是打算围绕问题打造自己的防护体系？

【文章来源：金十数据】

AI 播客：换个方式听新闻 下载 mp3

音频由扣子空间生成

达乌迪说，所有人都把鸡蛋放在同一个篮子里，一旦出问题就感到惊讶。这是公司自身的责任，要确保具备冗余和弹性。

此次故障发生前，微软 Azure 和亚马逊 AWS 在不到一周的时间里先后出问题，导致依赖这些大型服务商维持网站运行的互联网大面积瘫痪。

Cloudflare 的高速性能和安全记录让它成为全球网站的热门选择，但这次故障再次凸显了网络基础设施行业的高度集中。

虽然微软和 AWS 将各自的故障归因于与 DNS 相关的问题，DNS 是将网站域名转换为 IP 地址的系统，但 Cloudflare 将此次的中断追溯到一个配置文件。

这种文件问题竟然可以让互联网大片区域瘫痪，看似荒谬，但对于像 Cloudflare 这样的大公司而言，却完全可能发生。

深夜密谈 4 小时！普京摊牌：不按「安克雷奇方案」割让领土，免谈！

美元势创半年最差单周表现！期权交易员甚至「加钱」押注下跌

【文章来源：金十数据】

AI 播客：换个方式听新闻 下载 mp3

音频由扣子空间生成

达乌迪说，所有人都把鸡蛋放在同一个篮子里，一旦出问题就感到惊讶。这是公司自身的责任，要确保具备冗余和弹性。

此次故障发生前，微软 Azure 和亚马逊 AWS 在不到一周的时间里先后出问题，导致依赖这些大型服务商维持网站运行的互联网大面积瘫痪。

Cloudflare 的高速性能和安全记录让它成为全球网站的热门选择，但这次故障再次凸显了网络基础设施行业的高度集中。

虽然微软和 AWS 将各自的故障归因于与 DNS 相关的问题，DNS 是将网站域名转换为 IP 地址的系统，但 Cloudflare 将此次的中断追溯到一个配置文件。

这种文件问题竟然可以让互联网大片区域瘫痪，看似荒谬，但对于像 Cloudflare 这样的大公司而言，却完全可能发生。

【文章来源：金十数据】

AI 播客：换个方式听新闻 下载 mp3

音频由扣子空间生成

达乌迪说，所有人都把鸡蛋放在同一个篮子里，一旦出问题就感到惊讶。这是公司自身的责任，要确保具备冗余和弹性。

此次故障发生前，微软 Azure 和亚马逊 AWS 在不到一周的时间里先后出问题，导致依赖这些大型服务商维持网站运行的互联网大面积瘫痪。

Cloudflare 的高速性能和安全记录让它成为全球网站的热门选择，但这次故障再次凸显了网络基础设施行业的高度集中。

虽然微软和 AWS 将各自的故障归因于与 DNS 相关的问题，DNS 是将网站域名转换为 IP 地址的系统，但 Cloudflare 将此次的中断追溯到一个配置文件。

这种文件问题竟然可以让互联网大片区域瘫痪，看似荒谬，但对于像 Cloudflare 这样的大公司而言，却完全可能发生。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31