小米开源语音大模型Xiaomi-MiMo-Audio：7B级别性能全球领先，超越谷歌Gemini与OpenAI GPT-4o

AI产品动态8个月前发布 AI视野

9月19日，小米正式宣布开源其首个原生端到端语音大模型Xiaomi-MiMo-Audio，标志着其在人工智能语音技术领域的重要突破。该模型基于创新的预训练架构，通过超过一亿小时的语音数据训练，首次在语音领域实现了基于上下文学习（ICL）的少样本泛化能力，并在预训练过程中展现出显著的“涌现”行为。

Xiaomi-MiMo-Audio在多项权威评测中表现优异。在通用语音理解及对话基准测试中，该模型大幅领先同参数规模的开源模型，成为7B级别性能最佳的开源语音模型。值得注意的是，在音频理解基准MMAU的标准测试集上，MiMo-Audio超越了谷歌的闭源模型Gemini-2.5-Flash；在复杂音频推理任务Big Bench Audio S2T中，其表现也优于OpenAI的闭源模型GPT-4o-Audio-Preview。

技术层面，该模型实现了多项创新：首次将语音无损压缩下的预训练规模扩展至亿级小时量级，验证了语音领域的“GPT-3时刻”；完整开源了包括Tokenizer、模型结构、训练流程在内的整套语音预训练体系；创新性地引入“思考”机制，支持混合式思维推理。模型包含基础版MiMo-Audio-7B-Base和经指令微调的MiMo-Audio-7B-Instruct两个版本，后者可通过提示词切换不同运行模式。

实际应用中，MiMo-Audio展现出强大的跨场景适应能力。测试显示，该模型不仅能流畅处理多轮对话、方言表达（如天津快板），还能胜任音频字幕生成、复杂推理等任务。其对话系统在被打断时能快速响应，并具备情感表达和拟人化交互能力。研究人员特别指出，即使面对训练数据中未涵盖的语音转换、风格迁移等任务，模型也能通过少样本学习实现有效处理。

目前，小米已通过开源社区发布完整模型及相关技术文档。行业观察认为，这一开源举措将加速语音技术生态发展，为智能家居、人机交互等领域提供更强大的底层支持。公司表示，未来将持续优化模型性能，探索在多模态场景下的应用可能。

文章版权归作者所有，未经允许请勿转载。

小米开源语音大模型Xiaomi-MiMo-Audio：7B级别性能全球领先，超越谷歌Gemini与OpenAI GPT-4o

腾讯混元3D Studio发布：AI驱动3D建模效率提升至分钟级

高德地图TrafficVLM重大升级：AI实现车道级交通预测，90秒响应事故

相关文章

谷歌发布Gemini Nano Banana 2 Flash轻量AI模型，图像生成成本降低30%

阿里巴巴发布免费AI智能体iFlow CLI，命令行工具迎来大众化革命

蚂蚁集团发布全模态AI助手“灵光”，30秒生成可交互小程序

AI浏览器Dia正式向macOS用户开放：重构交互体验，双版本满足不同需求

最新资讯

热门AI工具

热门资讯