阿里巴巴开源全球首个应用思维链技术的音频生成模型ThinkSound

AI产品动态4个月前发布 AI视野

阿里巴巴通义实验室于2025年7月1日正式开源全球首个应用思维链（CoT）技术的音频生成模型ThinkSound，标志着AI在音视频多模态生成领域取得重大突破。该模型通过模拟专业音效师的三阶段工作逻辑，首次实现音画同步的精准控制，为影视、游戏及无障碍内容创作带来革新性解决方案。

技术原理方面，ThinkSound采用”事件解构-声学推导-时序合成”的链式推理框架。在视觉事件解析阶段，模型逐帧识别视频中的物理事件（如物体材质、运动轨迹）并生成时间戳标注；随后基于内部物理知识图谱推导声学属性；最终通过动态对齐引擎将声音参数与视频帧绑定。测试数据显示，其时序对齐误差率仅9.8%，较主流模型降低37.2%，在VGGSound测试集上的Fréchet音频距离达34.56，创行业新低。

实际应用场景中，该模型已展现显著优势：为AI生成视频自动匹配爆炸声等环境音效时，能根据火药量动态调整声波衰减曲线；游戏开发中可实时生成与雨势变化匹配的雨滴声频谱；在无障碍视频制作领域，能同步输出画面描述与环境音效。配套开源的AudioCoT数据集包含2531.8小时多源数据，为开发者提供丰富的训练资源。

目前ThinkSound已发布1.3B、724M、533M三个参数量版本，采用Apache 2.0协议在GitHub、HuggingFace及阿里魔搭社区开源。通义实验室表示，该技术将优先应用于阿里云智能客服的语音交互优化，并逐步向影视后期、虚拟现实等垂直领域开放API接口。

AI产品动态 # AI # CoT技术 # ThinkSound # 多模态 # 开源 # 阿里巴巴 # 音频生成

文章版权归作者所有，未经允许请勿转载。

阿里巴巴开源全球首个应用思维链技术的音频生成模型ThinkSound

微软开源GitHub Copilot Chat：AI编程工具进入开放协作新时代

百度AI Day重磅发布：智能框引领搜索业务十年最大变革

相关文章

苹果加速布局头戴式设备：2027年起推多款Vision系列头显与智能眼镜

AI Excel助手Shortcut在MEWC赛事中表现亮眼，效率超人类10倍

亚马逊云科技推出基于NVIDIA Blackwell架构的GPU实例，强化AI基础设施能力

可灵AI视频生成平台技术大升级：多图参考模型性能提升102%，局部参考功能引领精细化控制

最新资讯

热门AI工具

热门资讯