百度蒸汽机于9月25日宣布其音视频一体化视频生成模型完成重大升级,正式推出通用AI长视频生成功能。这一突破性技术首次实现无限长度视频生成,彻底打破行业此前5秒至10秒的时长限制,标志着AI视频生成进入工业化应用新阶段。
技术突破与核心功能
本次升级采用流式生成技术,通过自回归扩散模型结合帧级噪声独立控制、动态时间步调度等创新方案,解决长视频生成的连贯性与一致性难题。用户仅需输入一张参考图和文本描述,即可生成包含多人对话、精准口型同步及电影级画质的视频内容。尤为关键的是,模型支持生成过程中实时交互——用户可随时暂停并提交新提示词(Prompt)调整后续剧情走向,实现动态创作。
工程优化与性能表现
百度商业研发团队通过模型参数压缩、窗口注意力机制优化等技术手段,将推理耗时降至近乎实时水平。官方演示显示,模型已能流畅生成30秒至超1分钟的高质量视频片段,运镜设计、人物表情等细节均达到专业影视标准。例如,科幻短片《归途》利用该技术将制作成本压缩至数百元,验证了其商业化潜力。
行业影响与应用前景
此次升级直接推动AI视频从“技术演示”转向“规模生产”。在教育领域,可一键生成完整课程视频;影视行业能快速完成预演与特效制作;营销场景中,企业可低成本产出个性化广告内容。据透露,百度蒸汽机将于10月中旬进一步支持实时交互数字人、VR/AR内容生成,拓展至游戏与虚拟现实领域。
技术演进与生态布局
作为全球首个中文音视频一体化模型,百度蒸汽机自今年3月发布以来持续迭代:5月登顶图生视频榜单,8月实现多人有声视频生成,此次长视频功能是其技术路线的又一次验证。目前该模型已接入百度智能云千帆平台,并通过“绘想”创作平台向C端开放,形成从技术底层到应用生态的完整闭环。
此次升级不仅重构了视频创作的成本与效率标准,更为AIGC产业链带来“技术落地—需求爆发”的连锁反应。随着流式生成技术的普及,内容创作的门槛将进一步降低,推动视频生产进入全民化时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。