小米开源声音理解大模型MiDashengLM-7B，推动AI音频技术革新

8月4日，小米公司通过官方渠道宣布全量开源其自研声音理解大模型 MiDashengLM-7B。该模型作为“人车家全生态”战略的核心技术组件，已在智能座舱、智能家居等场景实现30余项落地应用。

技术架构方面，MiDashengLM-7B创新性地采用Xiaomi Dasheng音频编码器与Qwen2.5-Omni-7B Thinker自回归解码器的组合方案，通过通用音频描述训练策略，实现对语音、环境声及音乐的多模态统一理解。测试数据显示，该模型在22个公开评测集中均刷新多模态大模型最佳成绩（SOTA），其中单样本推理的首Token延迟（TTFT）较业界先进模型降低75%，同等显存条件下的数据吞吐效率提升20倍以上。

性能突破主要体现在三个方面：在80GB GPU环境下可实现更大批次的并发处理；语音识别任务中，GigaSpeech2数据集上的表现显著优于同类7B模型；音频描述任务的FENSE指标达到行业领先水平。值得注意的是，该模型训练数据全部采用公开数据集，涵盖语音识别、环境声分类、音乐理解等五大领域。

小米技术团队透露，当前正推进计算效率的深度优化，目标实现终端设备的离线部署能力，并扩展基于自然语言提示的声音编辑功能。此次开源标志着音频理解技术进入新阶段，其跨场景的泛化理解能力将为智能生态建设提供关键技术支撑。

AI产品动态 # AI # MiDashengLM-7B # 声音理解大模型 # 小米 # 开源 # 智能家居 # 智能座舱

文章版权归作者所有，未经允许请勿转载。

小米开源声音理解大模型MiDashengLM-7B，推动AI音频技术革新

谷歌推出Gemini 2.5 Deep Think模型，AI推理能力再升级

全球首部AI单元故事集《新世界加载中》首映，快手可灵AI引领AIGC影视化新纪元

相关文章

英伟达发布全模态理解模型OmniVinci，多模态基准测试领先19.05%

昆仑元AI发布跨模态融合模型BaiZe-Omni-14b-a2b，多模态AI技术实现重大突破

百度文心智能体平台与小米应用商店达成合作，推出智能体跨端分发新模式

钉钉AI表格突破单表千万级数据处理，重构零售电商双十一决策模式

最新资讯

热门AI工具

热门资讯