AWS重大故障持续15小时,ChatGPT等数千服务瘫痪,损失超百亿美元

亚马逊云服务(AWS)美国东部区域于2025年10月20日凌晨发生重大故障,导致全球范围内依赖其云计算服务的数千家企业和平台陷入瘫痪,其中包括OpenAI的ChatGPT、Snapchat、麦当劳、Robinhood等知名服务。此次宕机持续约15小时,是AWS自2021年以来最严重的服务中断事件,再次暴露了全球互联网基础设施高度集中化带来的系统性风险。

故障始于美国东部时间凌晨3点左右,最初影响AWS位于弗吉尼亚州北部的US-EAST-1区域。该区域作为AWS最早建立且规模最大的数据中心集群,承载了大量全球性服务的核心功能。AWS官方确认,故障源于区域性DynamoDB数据库服务端点的DNS解析问题,导致依赖该数据库的EC2虚拟机服务出现连锁故障。尽管DNS问题在2小时内得到修复,但后续EC2子系统异常使得服务恢复过程延长至当天下午。

受影响的平台范围远超预期:亚马逊自有服务(Alexa、Prime Video)、金融服务(Venmo、Coinbase)、社交媒体(Snapchat、Reddit)、游戏平台(Fortnite、Roblox)以及航空公司系统均报告服务异常。监测数据显示,全球用户提交了超过650万条故障报告,其中美国占140万条,英国80万条。ChatGPT等AI服务的中断尤其引发关注,凸显了人工智能技术对云基础设施的深度依赖。

行业专家指出,US-EAST-1区域的历史性架构使其成为单点故障的高风险源——该区域不仅托管计算资源,还集中管理全球控制面服务。此次事件与2020年、2021年及2023年该区域发生的宕机事故类似,但影响范围更广。IDC分析师认为,虽然此类故障难以完全避免,但企业应考虑跨区域部署、弹性架构设计以降低风险。初步估算显示,本次事故造成的直接经济损失可能超过百亿美元。

截至10月21日,所有AWS服务已恢复正常运行,但部分积压请求仍在处理中。亚马逊尚未公布完整的故障分析报告,但承诺将加强基础设施冗余设计。这一事件再次引发对云计算垄断格局的讨论,部分技术团队建议采用多云策略分散风险,避免将关键业务过度集中于单一云服务商。

© 版权声明

相关文章