8月4日,小米公司通过官方渠道宣布全量开源其自研声音理解大模型MiDashengLM-7B。该模型作为“人车家全生态”战略的核心技术组件,已在智能座舱、智能家居等场景实现30余项落地应用。
技术架构方面,MiDashengLM-7B创新性地采用Xiaomi Dasheng音频编码器与Qwen2.5-Omni-7B Thinker自回归解码器的组合方案,通过通用音频描述训练策略,实现对语音、环境声及音乐的多模态统一理解。测试数据显示,该模型在22个公开评测集中均刷新多模态大模型最佳成绩(SOTA),其中单样本推理的首Token延迟(TTFT)较业界先进模型降低75%,同等显存条件下的数据吞吐效率提升20倍以上。
性能突破主要体现在三个方面:在80GB GPU环境下可实现更大批次的并发处理;语音识别任务中,GigaSpeech2数据集上的表现显著优于同类7B模型;音频描述任务的FENSE指标达到行业领先水平。值得注意的是,该模型训练数据全部采用公开数据集,涵盖语音识别、环境声分类、音乐理解等五大领域。
小米技术团队透露,当前正推进计算效率的深度优化,目标实现终端设备的离线部署能力,并扩展基于自然语言提示的声音编辑功能。此次开源标志着音频理解技术进入新阶段,其跨场景的泛化理解能力将为智能生态建设提供关键技术支撑。
© 版权声明
文章版权归作者所有,未经允许请勿转载。