腾讯AI Lab发布AudioGenie系统：多模态音频生成技术实现行业突破

AI产品动态9个月前发布 AI视野

腾讯AI Lab近日正式发布AudioGenie系统，这一突破性技术实现了多模态到多音频生成的跨越式发展。该系统通过创新的无训练多智能体框架，支持视频、文本、图像等多种输入形式，可生成音效、语音、音乐等复合音频输出，其生成效果在音质、准确性及内容对齐方面均达到行业领先水平。

技术架构方面，AudioGenie采用双层智能体协同机制。生成团队通过自适应专家混合（MoE）模型实现细粒度任务分解，动态选择最优模型进行音频合成；监督团队则负责时空一致性验证与自我纠错，确保输出质量。这种设计不仅消除了对大规模训练数据的依赖，更显著提升了生成效率。测试数据显示，在腾讯最新推出的MA-Bench基准测试中，该系统在9项关键指标上均达到或超越现有最优水平。

实际应用场景中，AudioGenie已展现出强大的商业化潜力。影视制作领域可实现电影级音效的实时生成，游戏开发中能自动创建贴合场景的环境音效，VR/AR应用则可提供沉浸式的多声道音频体验。值得注意的是，该系统在用户调研中获得显著高于行业平均的满意度评价，特别是在美学体验维度的表现尤为突出。

该研究成果由腾讯AI Lab与香港科技大学（广州）联合完成，相关论文已被ACM MM2025顶会收录。业内分析指出，AudioGenie的推出将进一步改变全球AI音频市场格局，其多模态处理能力对现有主流模型形成实质性挑战。市场监测数据显示，该技术发布后，国产AI模型在全球市场的占有率呈现加速上升态势。

AI产品动态 # AI # AudioGenie # 人工智能 # 多模态音频生成 # 腾讯AILab # 音频技术

文章版权归作者所有，未经允许请勿转载。

腾讯AI Lab发布AudioGenie系统：多模态音频生成技术实现行业突破

甲骨文与谷歌云深化合作：Gemini AI模型正式登陆OCI云平台

阿里云Tablestore重磅升级：AI Agent记忆存储功能发布，成本降低30%

相关文章

Pokee AI开源7B深度研究代理，模块化架构助力科研效率突破

蚂蚁集团发布全模态AI助手“灵光”，30秒生成可交互小程序

Gemini超越ChatGPT登顶美国iOS免费榜，NanoBanana图像编辑功能引爆市场

孙正义含泪清仓英伟达！套现412亿全力押注AI基建，剑指OpenAI与“星门”数据中心

最新资讯

热门AI工具

热门资讯