百度蒸汽机2.0全球首发多人有声视频生成,成本直降70%

AI产品动态11小时前发布 AI视野

8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成2.0版本重大升级,成为全球首个实现多人有声视频一体化生成的中文I2V模型。此次升级涵盖Turbo版、Lite版、Pro版及全系有声版,已通过百度搜索、“绘想”平台面向公众开放,企业用户可依托千帆平台获取高性能视频生成服务。

技术层面,2.0版本采用多模态时空规划、音视频端到端建模等核心技术,显著提升了复杂运镜控制、电影级人物表现及画面流畅度。其首创的多模态潜在空间规划技术(Latent Multi-Modal Planner)可自主协调多角色互动逻辑,配合深度优化的中文场景适配能力,实现超98%的语音细节还原与情感表达精准度,支持电影级画质、环境音效与自然语音的同步输出。

值得注意的是,该模型定价仅为行业平均水平的30%,已落地百度搜索、营销等核心场景。国际视效指导姚骐在发布会上展示的科幻短片《归途》,证实了该技术可大幅降低高质量视频制作成本。此前,百度曾于8月19日紧急声明海外仿冒网站问题,强调正版服务仅通过官方渠道提供。自7月2日发布以来,蒸汽机模型注册用户已突破30万,显示出市场对AI视频生成技术的强烈需求。

© 版权声明

相关文章