字节跳动旗下火山引擎于2025年12月18日在FORCE原动力大会上正式发布新一代音视频创作模型Seedance 1.5 pro,标志着AI视频生成技术进入声画深度融合新阶段。该模型采用原生音视频联合生成架构,已通过豆包App和即梦AI平台向用户开放。
技术突破方面,Seedance 1.5 pro实现了三大核心升级:首先,在音画同步技术上达到毫秒级精度,支持中英双语及四川话、粤语等方言的语音韵律捕捉,口型对齐误差控制在业界领先水平。其次,创新性地整合电影级运镜控制能力,可自主完成希区柯克式变焦等复杂镜头调度,并实现专业影调处理。第三,通过增强语义理解模块,模型能精准解析叙事语境,在短剧生成、广告制作等场景中展现出优异的视听协调性。
实际应用测试显示,该模型在相声贯口表演、方言对话等高压场景下表现突出。例如能准确生成北京茶馆中相声演员的快速贯口与观众互动声效,或还原成都火锅店顾客的方言对话与背景环境音。影视级功能方面,模型可依据简单文本提示生成包含特写镜头、多角度切换的连贯视频段落,并自动匹配符合情节的情绪音效。
商业化进展上,火山引擎总裁谭待透露,Seedance系列即将推出”Draft样片”功能,通过低分辨率预览大幅降低创作试错成本。目前豆包大模型生态日均token使用量已突破50万亿,超百家企业客户累计使用量达万亿规模。评测数据显示,该模型在视觉推理、动态叙事等关键指标上已处于全球第一梯队,尤其在ZeroBench视觉推理测试中获得当前最高分。
行业观察人士指出,Seedance 1.5 pro的发布改变了传统AI视频”画面与声音分离生成”的局限,其原生联合生成架构为影视预制、社交媒体内容生产等领域提供了新的技术解决方案。随着多模态大模型技术的持续演进,音视频协同生成正成为AI内容创作的主流发展方向。
© 版权声明
文章版权归作者所有,未经允许请勿转载。