【文章来源:金十数据】
AI 播客:换个方式听新闻 下载 mp3
周二,Cloudflare(NET.N) 成为过去一个月内又一家发生大规模崩溃的网络基础设施巨头,连续数小时让包括 X、ChatGPT、Spotify、Canva,甚至用于追踪故障的 DownDetector 在内的整站全部显示错误信息。
这是近期一连串服务中断事件之一,网络性能监测平台 Catchpoint 的首席执行官兼联合创始人梅赫迪·达乌迪 (Mehdi Daoudi) 表示,这应该成为企业的警钟。
达乌迪说,所有人都把鸡蛋放在同一个篮子里,一旦出问题就感到惊讶。这是公司自身的责任,要确保具备冗余和弹性。
此次故障发生前,微软 Azure 和亚马逊 AWS 在不到一周的时间里先后出问题,导致依赖这些大型服务商维持网站运行的互联网大面积瘫痪。
Cloudflare 同样支撑着互联网中相当重要的部分,它通过内容分发网络保障网站在线,同时提供多种服务,包括 DDoS 攻击防护和 DNS。去年该公司表示,大约 20% 的网络流量经由 Cloudflare 运行,它还为财富 500 强中 35% 的企业提供服务,除此之外还有 「数百万」 其他客户。
Cloudflare 的高速性能和安全记录让它成为全球网站的热门选择,但这次故障再次凸显了网络基础设施行业的高度集中。
在 AWS 故障导致安全通讯应用 Signal 停止服务后,该公司总裁梅雷迪思·惠特克 (Meredith Whittaker) 表示,公司别无选择,只能依赖大型云服务提供商来运行。她写道,实际上整个技术栈几乎被三到四家企业所掌控。即使是微小偏差也可能带来巨大的影响。
最近连续发生的故障仍然明确地表明,企业必须制定备份方案。达乌迪在接受采访时表示,故障是必然存在的,而且只会越来越频繁,影响范围也只会越来越大,问题是你准备怎么应对?
虽然微软和 AWS 将各自的故障归因于与 DNS 相关的问题,DNS 是将网站域名转换为 IP 地址的系统,但 Cloudflare 将此次的中断追溯到一个配置文件。
Cloudflare 发言人杰基·达顿 (Jackie Dutton) 则表示,周二故障的根源在于一个用于管理威胁流量的自动生成配置文件,该文件超出了预期的条目大小,最终触发了处理 Cloudflare 多项服务流量的软件系统崩溃。
这种文件问题竟然可以让互联网大片区域瘫痪,看似荒谬,但对于像 Cloudflare 这样的大公司而言,却完全可能发生。
SANS 研究院人工智能与研究主管罗布·李 (Rob Lee) 表示,运营 Cloudflare 这种规模的基础设施时,哪怕是极其轻微的偏差也会产生巨大后果。这些平台为了速度而构建,所以任何延迟或中断决策的因素都可能迅速级联。在高性能环境下,哪怕是毫秒级的延迟,也可能演变为完全的流量阻断。
他还表示,Cloudflare 所描述的这种配置文件,决定了路由安全策略、负载均衡决策以及流量如何在全球范围分配。如果文件突然变大,就可能触发解析变慢、内存问题、CPU 争用,或是在依赖它的系统中出现逻辑错误。
AWS 同样将最近一次大范围中断归咎于 「自动化故障」,这是这类错误迟早会再次发生。达乌迪说,每次 Cloudflare 出问题你都要抱怨吗?还是打算围绕问题打造自己的防护体系?
【文章来源:金十数据】
AI 播客:换个方式听新闻 下载 mp3
周二,Cloudflare(NET.N) 成为过去一个月内又一家发生大规模崩溃的网络基础设施巨头,连续数小时让包括 X、ChatGPT、Spotify、Canva,甚至用于追踪故障的 DownDetector 在内的整站全部显示错误信息。
这是近期一连串服务中断事件之一,网络性能监测平台 Catchpoint 的首席执行官兼联合创始人梅赫迪·达乌迪 (Mehdi Daoudi) 表示,这应该成为企业的警钟。
达乌迪说,所有人都把鸡蛋放在同一个篮子里,一旦出问题就感到惊讶。这是公司自身的责任,要确保具备冗余和弹性。
此次故障发生前,微软 Azure 和亚马逊 AWS 在不到一周的时间里先后出问题,导致依赖这些大型服务商维持网站运行的互联网大面积瘫痪。
Cloudflare 同样支撑着互联网中相当重要的部分,它通过内容分发网络保障网站在线,同时提供多种服务,包括 DDoS 攻击防护和 DNS。去年该公司表示,大约 20% 的网络流量经由 Cloudflare 运行,它还为财富 500 强中 35% 的企业提供服务,除此之外还有 「数百万」 其他客户。
Cloudflare 的高速性能和安全记录让它成为全球网站的热门选择,但这次故障再次凸显了网络基础设施行业的高度集中。
在 AWS 故障导致安全通讯应用 Signal 停止服务后,该公司总裁梅雷迪思·惠特克 (Meredith Whittaker) 表示,公司别无选择,只能依赖大型云服务提供商来运行。她写道,实际上整个技术栈几乎被三到四家企业所掌控。即使是微小偏差也可能带来巨大的影响。
最近连续发生的故障仍然明确地表明,企业必须制定备份方案。达乌迪在接受采访时表示,故障是必然存在的,而且只会越来越频繁,影响范围也只会越来越大,问题是你准备怎么应对?
虽然微软和 AWS 将各自的故障归因于与 DNS 相关的问题,DNS 是将网站域名转换为 IP 地址的系统,但 Cloudflare 将此次的中断追溯到一个配置文件。
Cloudflare 发言人杰基·达顿 (Jackie Dutton) 则表示,周二故障的根源在于一个用于管理威胁流量的自动生成配置文件,该文件超出了预期的条目大小,最终触发了处理 Cloudflare 多项服务流量的软件系统崩溃。
这种文件问题竟然可以让互联网大片区域瘫痪,看似荒谬,但对于像 Cloudflare 这样的大公司而言,却完全可能发生。
SANS 研究院人工智能与研究主管罗布·李 (Rob Lee) 表示,运营 Cloudflare 这种规模的基础设施时,哪怕是极其轻微的偏差也会产生巨大后果。这些平台为了速度而构建,所以任何延迟或中断决策的因素都可能迅速级联。在高性能环境下,哪怕是毫秒级的延迟,也可能演变为完全的流量阻断。
他还表示,Cloudflare 所描述的这种配置文件,决定了路由安全策略、负载均衡决策以及流量如何在全球范围分配。如果文件突然变大,就可能触发解析变慢、内存问题、CPU 争用,或是在依赖它的系统中出现逻辑错误。
AWS 同样将最近一次大范围中断归咎于 「自动化故障」,这是这类错误迟早会再次发生。达乌迪说,每次 Cloudflare 出问题你都要抱怨吗?还是打算围绕问题打造自己的防护体系?
【文章来源:金十数据】
AI 播客:换个方式听新闻 下载 mp3
周二,Cloudflare(NET.N) 成为过去一个月内又一家发生大规模崩溃的网络基础设施巨头,连续数小时让包括 X、ChatGPT、Spotify、Canva,甚至用于追踪故障的 DownDetector 在内的整站全部显示错误信息。
这是近期一连串服务中断事件之一,网络性能监测平台 Catchpoint 的首席执行官兼联合创始人梅赫迪·达乌迪 (Mehdi Daoudi) 表示,这应该成为企业的警钟。
达乌迪说,所有人都把鸡蛋放在同一个篮子里,一旦出问题就感到惊讶。这是公司自身的责任,要确保具备冗余和弹性。
此次故障发生前,微软 Azure 和亚马逊 AWS 在不到一周的时间里先后出问题,导致依赖这些大型服务商维持网站运行的互联网大面积瘫痪。
Cloudflare 同样支撑着互联网中相当重要的部分,它通过内容分发网络保障网站在线,同时提供多种服务,包括 DDoS 攻击防护和 DNS。去年该公司表示,大约 20% 的网络流量经由 Cloudflare 运行,它还为财富 500 强中 35% 的企业提供服务,除此之外还有 「数百万」 其他客户。
Cloudflare 的高速性能和安全记录让它成为全球网站的热门选择,但这次故障再次凸显了网络基础设施行业的高度集中。
在 AWS 故障导致安全通讯应用 Signal 停止服务后,该公司总裁梅雷迪思·惠特克 (Meredith Whittaker) 表示,公司别无选择,只能依赖大型云服务提供商来运行。她写道,实际上整个技术栈几乎被三到四家企业所掌控。即使是微小偏差也可能带来巨大的影响。
最近连续发生的故障仍然明确地表明,企业必须制定备份方案。达乌迪在接受采访时表示,故障是必然存在的,而且只会越来越频繁,影响范围也只会越来越大,问题是你准备怎么应对?
虽然微软和 AWS 将各自的故障归因于与 DNS 相关的问题,DNS 是将网站域名转换为 IP 地址的系统,但 Cloudflare 将此次的中断追溯到一个配置文件。
Cloudflare 发言人杰基·达顿 (Jackie Dutton) 则表示,周二故障的根源在于一个用于管理威胁流量的自动生成配置文件,该文件超出了预期的条目大小,最终触发了处理 Cloudflare 多项服务流量的软件系统崩溃。
这种文件问题竟然可以让互联网大片区域瘫痪,看似荒谬,但对于像 Cloudflare 这样的大公司而言,却完全可能发生。
SANS 研究院人工智能与研究主管罗布·李 (Rob Lee) 表示,运营 Cloudflare 这种规模的基础设施时,哪怕是极其轻微的偏差也会产生巨大后果。这些平台为了速度而构建,所以任何延迟或中断决策的因素都可能迅速级联。在高性能环境下,哪怕是毫秒级的延迟,也可能演变为完全的流量阻断。
他还表示,Cloudflare 所描述的这种配置文件,决定了路由安全策略、负载均衡决策以及流量如何在全球范围分配。如果文件突然变大,就可能触发解析变慢、内存问题、CPU 争用,或是在依赖它的系统中出现逻辑错误。
AWS 同样将最近一次大范围中断归咎于 「自动化故障」,这是这类错误迟早会再次发生。达乌迪说,每次 Cloudflare 出问题你都要抱怨吗?还是打算围绕问题打造自己的防护体系?
【文章来源:金十数据】
AI 播客:换个方式听新闻 下载 mp3
周二,Cloudflare(NET.N) 成为过去一个月内又一家发生大规模崩溃的网络基础设施巨头,连续数小时让包括 X、ChatGPT、Spotify、Canva,甚至用于追踪故障的 DownDetector 在内的整站全部显示错误信息。
这是近期一连串服务中断事件之一,网络性能监测平台 Catchpoint 的首席执行官兼联合创始人梅赫迪·达乌迪 (Mehdi Daoudi) 表示,这应该成为企业的警钟。
达乌迪说,所有人都把鸡蛋放在同一个篮子里,一旦出问题就感到惊讶。这是公司自身的责任,要确保具备冗余和弹性。
此次故障发生前,微软 Azure 和亚马逊 AWS 在不到一周的时间里先后出问题,导致依赖这些大型服务商维持网站运行的互联网大面积瘫痪。
Cloudflare 同样支撑着互联网中相当重要的部分,它通过内容分发网络保障网站在线,同时提供多种服务,包括 DDoS 攻击防护和 DNS。去年该公司表示,大约 20% 的网络流量经由 Cloudflare 运行,它还为财富 500 强中 35% 的企业提供服务,除此之外还有 「数百万」 其他客户。
Cloudflare 的高速性能和安全记录让它成为全球网站的热门选择,但这次故障再次凸显了网络基础设施行业的高度集中。
在 AWS 故障导致安全通讯应用 Signal 停止服务后,该公司总裁梅雷迪思·惠特克 (Meredith Whittaker) 表示,公司别无选择,只能依赖大型云服务提供商来运行。她写道,实际上整个技术栈几乎被三到四家企业所掌控。即使是微小偏差也可能带来巨大的影响。
最近连续发生的故障仍然明确地表明,企业必须制定备份方案。达乌迪在接受采访时表示,故障是必然存在的,而且只会越来越频繁,影响范围也只会越来越大,问题是你准备怎么应对?
虽然微软和 AWS 将各自的故障归因于与 DNS 相关的问题,DNS 是将网站域名转换为 IP 地址的系统,但 Cloudflare 将此次的中断追溯到一个配置文件。
Cloudflare 发言人杰基·达顿 (Jackie Dutton) 则表示,周二故障的根源在于一个用于管理威胁流量的自动生成配置文件,该文件超出了预期的条目大小,最终触发了处理 Cloudflare 多项服务流量的软件系统崩溃。
这种文件问题竟然可以让互联网大片区域瘫痪,看似荒谬,但对于像 Cloudflare 这样的大公司而言,却完全可能发生。
SANS 研究院人工智能与研究主管罗布·李 (Rob Lee) 表示,运营 Cloudflare 这种规模的基础设施时,哪怕是极其轻微的偏差也会产生巨大后果。这些平台为了速度而构建,所以任何延迟或中断决策的因素都可能迅速级联。在高性能环境下,哪怕是毫秒级的延迟,也可能演变为完全的流量阻断。
他还表示,Cloudflare 所描述的这种配置文件,决定了路由安全策略、负载均衡决策以及流量如何在全球范围分配。如果文件突然变大,就可能触发解析变慢、内存问题、CPU 争用,或是在依赖它的系统中出现逻辑错误。
AWS 同样将最近一次大范围中断归咎于 「自动化故障」,这是这类错误迟早会再次发生。达乌迪说,每次 Cloudflare 出问题你都要抱怨吗?还是打算围绕问题打造自己的防护体系?

