字节跳动发布Seedance 1.5 pro音视频生成模型：AI内容创作进入视听融合新阶段

AI产品动态5个月前发布 AI视野

字节跳动于12月16日正式推出新一代音视频生成模型Seedance 1.5 pro，该技术突破传统生成式框架，首次实现从文本或图像输入到带同步音频视频的完整创作流程。模型通过深度整合音视频模块，在内容连贯性基础上精准控制语音与画面的时空同步关系，标志着AI内容生成进入视听融合新阶段。

在语音生成维度，模型支持中、英、日等主流语言，并构建多维度声学特征库以强化方言拟真度。技术文档显示，系统可模拟四川话的抑扬顿挫和粤语的九声六调，同时捕捉不同地域的语调特征。针对影视需求，模型优化了情感语音合成技术，能根据文本情境自动调整语速、重音等参数。

画面生成方面，模型引入智能运镜算法突破固定视角限制。通过分析文本空间关系和叙事节奏，系统可自主规划镜头运动轨迹，实现长镜头跟随、希区柯克变焦等专业拍摄效果。测试案例表明，模型生成的复杂互动场景能通过动态调整景深和焦点位置，营造电影级视觉层次感。

技术架构上采用改进型MMDiT框架，构建多阶段数据优化链路：预处理阶段将文本解析为时空语义单元；生成阶段通过强化学习动态调整参数；后处理环节运用物理引擎校验运动合理性。该策略使模型在口型匹配度、背景音效空间定位等指标达行业领先水平。实测数据显示，音画同步精度较前代提升37%，方言特征还原度超92%。

目前模型已上线即梦AI和豆包平台，支持通过简单指令生成含专业配音、动态镜头的完整视频。某影视公司测试反馈，生成内容在表情自然度、场景流畅性方面接近专业水准，但处理高速运动物体时仍存在形变问题。研发团队透露，后续版本将重点优化多角色交互的物理引擎，并计划开放参数接口供创作者微调。首批行业合作方涵盖影视制作、广告代理及游戏开发领域，实测显示30秒剧情短视频制作周期可从72小时缩短至8小时。

文章版权归作者所有，未经允许请勿转载。

字节跳动发布Seedance 1.5 pro音视频生成模型：AI内容创作进入视听融合新阶段

阿里巴巴发布通义万相2.6：国内首个支持角色扮演的AI视频生成模型，开启影视创作新纪元

小米开源MoE模型Xiaomi MiMo-V2-Flash发布：150token/秒生成速度创纪录，性能比肩DeepSeek-V3.2

相关文章

月之暗面科技推出Kimi K2高速版模型，性能提升400%

ChatGPT推出格式化块功能：AI对话变身集成化办公工具

小米启动“超级小爱”AI助手大规模适配计划，25款热门机型首批试点

天工Skywork上线专业数据模式，接入430家权威机构构建智能决策系统

最新资讯

热门AI工具

热门资讯