OpenAI于2025年9月30日正式发布新一代视频生成模型Sora 2,标志着其在多模态大模型领域的技术突破。该模型被官方称为视频生成领域的“GPT-3.5时刻”,其核心改进在于对物理规律的精准模拟能力。例如,在篮球运动场景中,投篮未命中的球体会遵循惯性从篮板上自然反弹,而非如初代模型般出现瞬移失真。此外,Sora 2支持跨多镜头指令执行,能保持角色与场景逻辑的一致性,并实现音视频原生同步生成,显著提升了写实、电影及动漫风格视频的生成质量。
同步推出的社交应用Sora App依托Sora 2模型,主打“Cameos”功能,用户可通过一次性音视频录制验证身份后,将个人形象植入AI生成的任意场景。该应用采用垂直信息流设计,上线24小时内即登顶美国App Store免费榜前三,美加地区首两日下载量达16.4万次。为应对潜在滥用风险,OpenAI强化了安全措施,包括青少年内容浏览限制、人工审核团队扩容及ChatGPT管理的家长控制功能。
商业化层面,Sora 2深度融入OpenAI生态体系,用户可通过ChatGPT直接购买视频中出现的商品或调用第三方应用编辑内容。公司上半年营收达43亿美元,估值飙升至5000亿美元,并与英伟达达成千亿级战略合作,计划构建10GW规模的AI数据中心。分析指出,Sora 2的推出将加速AI视频技术在社交、娱乐及电商等领域的应用落地,但同时也面临版权保护、虚假信息治理等挑战。
技术细节显示,Sora 2的训练需消耗4200-10500块H100 GPU运行一个月,单片H100推理时每小时仅能生成约5分钟视频,算力需求远超语言模型。这一突破性进展或推动全球AI基础设施投资进入新阶段。
© 版权声明
文章版权归作者所有,未经允许请勿转载。