小米开源跨领域具身大模型MiMo-Embodied,实现自动驾驶与具身智能深度融合

小米公司于2025年11月21日正式发布并开源跨领域具身大模型MiMo-Embodied,该模型首次实现自动驾驶具身智能两大技术体系的深度融合,标志着通用具身智能研究从垂直领域专用向跨域协同迈出关键一步。模型采用MIT许可协议,70亿参数基础版本及完整训练代码已通过Hugging Face平台开放获取。

技术架构与创新突破
MiMo-Embodied通过三模块协同设计构建统一基座:视觉编码模块基于VisionTransformer处理多模态输入,投影模块实现视觉特征至语言模型空间的映射,核心推理模块依托大语言模型完成跨模态深度融合。其创新性体现在三方面:
1. 跨域能力覆盖:同步支持具身智能的可供性推理、任务规划、空间理解三大核心任务,以及自动驾驶的环境感知、状态预测、驾驶规划全链路能力;
2. 双向知识迁移:验证室内操作经验与道路决策能力的协同效应,例如机器人通过交通规则知识提升避障成功率20%以上;
3. 渐进式训练策略:采用四阶段强化学习(具身基础训练→自动驾驶迁移→思维链增强→强化学习优化),显著提升复杂环境下的决策鲁棒性。

性能表现与行业影响
在29项权威基准测试中,模型全面超越现有开源及闭源方案。其中具身智能领域17项测试刷新纪录,自动驾驶领域12项测试实现全链路突破。典型场景验证显示,模型能精准完成具身导航中的对象定位,并在交叉路口转弯等高难度驾驶动作中保持决策连贯性。研究团队强调,其设计兼顾硬件适配性,支持消费级GPU部署,为中小企业参与生态建设降低门槛。

产学研协同推进
小米智能驾驶首席科学家陈龙领衔的团队指出,MiMo-Embodied为解决“室内外智能割裂”提供了工程范本。目前已有工业巡检、物流搬运等领域合作方启动垂直开发。开源地址及技术报告(arXiv:2511.16518)的发布,将进一步加速跨场景智能应用的商业化落地进程。

© 版权声明

相关文章