AWS重大故障持续15小时，ChatGPT等数千服务瘫痪，损失超百亿美元

AI新闻资讯8个月前发布 AI视野

亚马逊云服务（AWS）美国东部区域于2025年10月20日凌晨发生重大故障，导致全球范围内依赖其云计算服务的数千家企业和平台陷入瘫痪，其中包括OpenAI的ChatGPT、Snapchat、麦当劳、Robinhood等知名服务。此次宕机持续约15小时，是AWS自2021年以来最严重的服务中断事件，再次暴露了全球互联网基础设施高度集中化带来的系统性风险。

故障始于美国东部时间凌晨3点左右，最初影响AWS位于弗吉尼亚州北部的US-EAST-1区域。该区域作为AWS最早建立且规模最大的数据中心集群，承载了大量全球性服务的核心功能。AWS官方确认，故障源于区域性DynamoDB数据库服务端点的DNS解析问题，导致依赖该数据库的EC2虚拟机服务出现连锁故障。尽管DNS问题在2小时内得到修复，但后续EC2子系统异常使得服务恢复过程延长至当天下午。

受影响的平台范围远超预期：亚马逊自有服务（Alexa、Prime Video）、金融服务（Venmo、Coinbase）、社交媒体（Snapchat、Reddit）、游戏平台（Fortnite、Roblox）以及航空公司系统均报告服务异常。监测数据显示，全球用户提交了超过650万条故障报告，其中美国占140万条，英国80万条。ChatGPT等AI服务的中断尤其引发关注，凸显了人工智能技术对云基础设施的深度依赖。

行业专家指出，US-EAST-1区域的历史性架构使其成为单点故障的高风险源——该区域不仅托管计算资源，还集中管理全球控制面服务。此次事件与2020年、2021年及2023年该区域发生的宕机事故类似，但影响范围更广。IDC分析师认为，虽然此类故障难以完全避免，但企业应考虑跨区域部署、弹性架构设计以降低风险。初步估算显示，本次事故造成的直接经济损失可能超过百亿美元。

截至10月21日，所有AWS服务已恢复正常运行，但部分积压请求仍在处理中。亚马逊尚未公布完整的故障分析报告，但承诺将加强基础设施冗余设计。这一事件再次引发对云计算垄断格局的讨论，部分技术团队建议采用多云策略分散风险，避免将关键业务过度集中于单一云服务商。

文章版权归作者所有，未经允许请勿转载。

AWS重大故障持续15小时，ChatGPT等数千服务瘫痪，损失超百亿美元

HarmonyOS 6正式发布：实现与苹果生态原生互联，打破操作系统壁垒

商汤科技杨帆：AI重构知识产权全链条效率，大模型加速专利转化与侵权监测

相关文章

英国政府与OpenAI签署战略合作协议，共同推进AI技术应用与基础设施建设

联想CES 2026将发布全球首款AI超级智能体，启动天禧AI生态计划

Anthropic加速全球化布局：国际员工将翻倍，AI团队扩增五倍

影目科技完成1.5亿元B2轮融资，加速AI+AR智能眼镜生态布局

最新资讯

热门AI工具

热门资讯