火山引擎发布Seedance 1.5 Pro：突破音画同步技术，AI视频生成进入声画融合新阶段

AI产品动态5个月前发布 AI视野

字节跳动旗下火山引擎于2025年12月18日在FORCE原动力大会上正式发布新一代音视频创作模型Seedance 1.5 pro，标志着AI视频生成技术进入声画深度融合新阶段。该模型采用原生音视频联合生成架构，已通过豆包App和即梦AI平台向用户开放。

技术突破方面，Seedance 1.5 pro实现了三大核心升级：首先，在音画同步技术上达到毫秒级精度，支持中英双语及四川话、粤语等方言的语音韵律捕捉，口型对齐误差控制在业界领先水平。其次，创新性地整合电影级运镜控制能力，可自主完成希区柯克式变焦等复杂镜头调度，并实现专业影调处理。第三，通过增强语义理解模块，模型能精准解析叙事语境，在短剧生成、广告制作等场景中展现出优异的视听协调性。

实际应用测试显示，该模型在相声贯口表演、方言对话等高压场景下表现突出。例如能准确生成北京茶馆中相声演员的快速贯口与观众互动声效，或还原成都火锅店顾客的方言对话与背景环境音。影视级功能方面，模型可依据简单文本提示生成包含特写镜头、多角度切换的连贯视频段落，并自动匹配符合情节的情绪音效。

商业化进展上，火山引擎总裁谭待透露，Seedance系列即将推出”Draft样片”功能，通过低分辨率预览大幅降低创作试错成本。目前豆包大模型生态日均token使用量已突破50万亿，超百家企业客户累计使用量达万亿规模。评测数据显示，该模型在视觉推理、动态叙事等关键指标上已处于全球第一梯队，尤其在ZeroBench视觉推理测试中获得当前最高分。

行业观察人士指出，Seedance 1.5 pro的发布改变了传统AI视频”画面与声音分离生成”的局限，其原生联合生成架构为影视预制、社交媒体内容生产等领域提供了新的技术解决方案。随着多模态大模型技术的持续演进，音视频协同生成正成为AI内容创作的主流发展方向。

文章版权归作者所有，未经允许请勿转载。

火山引擎发布Seedance 1.5 Pro：突破音画同步技术，AI视频生成进入声画融合新阶段

Google将Opal集成至Gemini网页端，零代码AI应用开发门槛大幅降低

谷歌发布AI助手CC：基于Gemini大模型，整合Gmail、日历打造个性化工作流

相关文章

ChatGPT智能体突破Cloudflare人机验证，AI技术对网络安全提出新挑战

阿里开源通义千问AI编程大模型Qwen3-Coder，性能对标国际顶尖水平

Akamai联手英伟达推出边缘AI推理平台，响应速度提升10倍

AI悟空机器人陕西正式交付：优必选与中国电信联手打造家庭智慧伴侣

最新资讯

热门AI工具

热门资讯