9月19日,小米正式宣布开源其首个原生端到端语音大模型Xiaomi-MiMo-Audio,标志着其在人工智能语音技术领域的重要突破。该模型基于创新的预训练架构,通过超过一亿小时的语音数据训练,首次在语音领域实现了基于上下文学习(ICL)的少样本泛化能力,并在预训练过程中展现出显著的“涌现”行为。
Xiaomi-MiMo-Audio在多项权威评测中表现优异。在通用语音理解及对话基准测试中,该模型大幅领先同参数规模的开源模型,成为7B级别性能最佳的开源语音模型。值得注意的是,在音频理解基准MMAU的标准测试集上,MiMo-Audio超越了谷歌的闭源模型Gemini-2.5-Flash;在复杂音频推理任务Big Bench Audio S2T中,其表现也优于OpenAI的闭源模型GPT-4o-Audio-Preview。
技术层面,该模型实现了多项创新:首次将语音无损压缩下的预训练规模扩展至亿级小时量级,验证了语音领域的“GPT-3时刻”;完整开源了包括Tokenizer、模型结构、训练流程在内的整套语音预训练体系;创新性地引入“思考”机制,支持混合式思维推理。模型包含基础版MiMo-Audio-7B-Base和经指令微调的MiMo-Audio-7B-Instruct两个版本,后者可通过提示词切换不同运行模式。
实际应用中,MiMo-Audio展现出强大的跨场景适应能力。测试显示,该模型不仅能流畅处理多轮对话、方言表达(如天津快板),还能胜任音频字幕生成、复杂推理等任务。其对话系统在被打断时能快速响应,并具备情感表达和拟人化交互能力。研究人员特别指出,即使面对训练数据中未涵盖的语音转换、风格迁移等任务,模型也能通过少样本学习实现有效处理。
目前,小米已通过开源社区发布完整模型及相关技术文档。行业观察认为,这一开源举措将加速语音技术生态发展,为智能家居、人机交互等领域提供更强大的底层支持。公司表示,未来将持续优化模型性能,探索在多模态场景下的应用可能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。