小米开源声音理解大模型MiDashengLM-7B,推动AI音频技术革新

8月4日,小米公司通过官方渠道宣布全量开源其自研声音理解大模型MiDashengLM-7B。该模型作为“人车家全生态”战略的核心技术组件,已在智能座舱智能家居等场景实现30余项落地应用。

技术架构方面,MiDashengLM-7B创新性地采用Xiaomi Dasheng音频编码器与Qwen2.5-Omni-7B Thinker自回归解码器的组合方案,通过通用音频描述训练策略,实现对语音、环境声及音乐的多模态统一理解。测试数据显示,该模型在22个公开评测集中均刷新多模态大模型最佳成绩(SOTA),其中单样本推理的首Token延迟(TTFT)较业界先进模型降低75%,同等显存条件下的数据吞吐效率提升20倍以上。

性能突破主要体现在三个方面:在80GB GPU环境下可实现更大批次的并发处理;语音识别任务中,GigaSpeech2数据集上的表现显著优于同类7B模型;音频描述任务的FENSE指标达到行业领先水平。值得注意的是,该模型训练数据全部采用公开数据集,涵盖语音识别、环境声分类、音乐理解等五大领域。

小米技术团队透露,当前正推进计算效率的深度优化,目标实现终端设备的离线部署能力,并扩展基于自然语言提示的声音编辑功能。此次开源标志着音频理解技术进入新阶段,其跨场景的泛化理解能力将为智能生态建设提供关键技术支撑。

© 版权声明

相关文章