腾讯AI Lab发布AudioGenie系统:多模态音频生成技术实现行业突破

AI产品动态4小时前发布 AI视野

腾讯AI Lab近日正式发布AudioGenie系统,这一突破性技术实现了多模态到多音频生成的跨越式发展。该系统通过创新的无训练多智能体框架,支持视频、文本、图像等多种输入形式,可生成音效、语音、音乐等复合音频输出,其生成效果在音质、准确性及内容对齐方面均达到行业领先水平。

技术架构方面,AudioGenie采用双层智能体协同机制。生成团队通过自适应专家混合(MoE)模型实现细粒度任务分解,动态选择最优模型进行音频合成;监督团队则负责时空一致性验证与自我纠错,确保输出质量。这种设计不仅消除了对大规模训练数据的依赖,更显著提升了生成效率。测试数据显示,在腾讯最新推出的MA-Bench基准测试中,该系统在9项关键指标上均达到或超越现有最优水平。

实际应用场景中,AudioGenie已展现出强大的商业化潜力。影视制作领域可实现电影级音效的实时生成,游戏开发中能自动创建贴合场景的环境音效,VR/AR应用则可提供沉浸式的多声道音频体验。值得注意的是,该系统在用户调研中获得显著高于行业平均的满意度评价,特别是在美学体验维度的表现尤为突出。

该研究成果由腾讯AI Lab与香港科技大学(广州)联合完成,相关论文已被ACM MM2025顶会收录。业内分析指出,AudioGenie的推出将进一步改变全球AI音频市场格局,其多模态处理能力对现有主流模型形成实质性挑战。市场监测数据显示,该技术发布后,国产AI模型在全球市场的占有率呈现加速上升态势。

© 版权声明

相关文章