字节跳动发布Seedance 1.5 pro音视频生成模型:AI内容创作进入视听融合新阶段

AI产品动态6小时前发布 AI视野

字节跳动于12月16日正式推出新一代音视频生成模型Seedance 1.5 pro,该技术突破传统生成式框架,首次实现从文本或图像输入到带同步音频视频的完整创作流程。模型通过深度整合音视频模块,在内容连贯性基础上精准控制语音与画面的时空同步关系,标志着AI内容生成进入视听融合新阶段。

在语音生成维度,模型支持中、英、日等主流语言,并构建多维度声学特征库以强化方言拟真度。技术文档显示,系统可模拟四川话的抑扬顿挫和粤语的九声六调,同时捕捉不同地域的语调特征。针对影视需求,模型优化了情感语音合成技术,能根据文本情境自动调整语速、重音等参数。

画面生成方面,模型引入智能运镜算法突破固定视角限制。通过分析文本空间关系和叙事节奏,系统可自主规划镜头运动轨迹,实现长镜头跟随、希区柯克变焦等专业拍摄效果。测试案例表明,模型生成的复杂互动场景能通过动态调整景深和焦点位置,营造电影级视觉层次感。

技术架构上采用改进型MMDiT框架,构建多阶段数据优化链路:预处理阶段将文本解析为时空语义单元;生成阶段通过强化学习动态调整参数;后处理环节运用物理引擎校验运动合理性。该策略使模型在口型匹配度、背景音效空间定位等指标达行业领先水平。实测数据显示,音画同步精度较前代提升37%,方言特征还原度超92%。

目前模型已上线即梦AI和豆包平台,支持通过简单指令生成含专业配音、动态镜头的完整视频。某影视公司测试反馈,生成内容在表情自然度、场景流畅性方面接近专业水准,但处理高速运动物体时仍存在形变问题。研发团队透露,后续版本将重点优化多角色交互的物理引擎,并计划开放参数接口供创作者微调。首批行业合作方涵盖影视制作、广告代理及游戏开发领域,实测显示30秒剧情短视频制作周期可从72小时缩短至8小时。

© 版权声明

相关文章