阿里巴巴开源全球首个应用思维链技术的音频生成模型ThinkSound

阿里巴巴通义实验室于2025年7月1日正式开源全球首个应用思维链(CoT)技术的音频生成模型ThinkSound,标志着AI在音视频多模态生成领域取得重大突破。该模型通过模拟专业音效师的三阶段工作逻辑,首次实现音画同步的精准控制,为影视、游戏及无障碍内容创作带来革新性解决方案。

技术原理方面,ThinkSound采用”事件解构-声学推导-时序合成”的链式推理框架。在视觉事件解析阶段,模型逐帧识别视频中的物理事件(如物体材质、运动轨迹)并生成时间戳标注;随后基于内部物理知识图谱推导声学属性;最终通过动态对齐引擎将声音参数与视频帧绑定。测试数据显示,其时序对齐误差率仅9.8%,较主流模型降低37.2%,在VGGSound测试集上的Fréchet音频距离达34.56,创行业新低。

实际应用场景中,该模型已展现显著优势:为AI生成视频自动匹配爆炸声等环境音效时,能根据火药量动态调整声波衰减曲线;游戏开发中可实时生成与雨势变化匹配的雨滴声频谱;在无障碍视频制作领域,能同步输出画面描述与环境音效。配套开源的AudioCoT数据集包含2531.8小时多源数据,为开发者提供丰富的训练资源。

目前ThinkSound已发布1.3B、724M、533M三个参数量版本,采用Apache 2.0协议在GitHub、HuggingFace及阿里魔搭社区开源。通义实验室表示,该技术将优先应用于阿里云智能客服的语音交互优化,并逐步向影视后期、虚拟现实等垂直领域开放API接口。

© 版权声明

相关文章