在2025年12月17日举办的“小米人车家全生态合作伙伴大会”上,小米集团正式发布自研开源推理模型MiMo-V2-Flash,标志着其在AI大模型领域的技术突破与生态布局进入新阶段。该模型由小米MiMo大模型负责人罗福莉首次公开介绍,其核心设计聚焦于高效推理与低成本落地,为智能体应用提供底层支持。
技术架构与性能表现
MiMo-V2-Flash采用专家混合架构(MoE),总参数量达3090亿,活跃参数仅150亿,通过三层多Token预测(MTP)技术实现推理速度提升2.0至2.6倍,峰值生成速度达150 tokens/秒。其创新性混合注意力机制结合全局注意力与滑动窗口注意力(窗口固定为128 token),在保持256k长上下文处理能力的同时,将KV缓存存储量降低6倍。训练阶段采用FP8混合精度及多教师在线策略蒸馏(MOPD),显著减少算力需求。
开源生态与行业竞争力
模型以MIT协议开源,在权威测试中表现突出:SWE-bench Verified编程任务解决率达73.4%,超越主流开源模型;AIME 2025数学竞赛、GPQA-Diamond科学测试均位列开源模型前二。智能体任务中,通信类得分95.3,零售类79.5,验证了复杂场景下的交互能力。成本方面,输入/输出定价为每百万token 0.1⁄0.3美元,仅为同类闭源模型的2.5%。
应用场景与战略意义
小米同步推出在线体验平台Xiaomi MiMO Studio,支持深度搜索与联网交互。技术团队演示了模型构建操作系统、模拟太阳系等多元能力,凸显其在智能家居、自动驾驶等小米核心业务中的落地潜力。集团总裁卢伟冰强调,未来五年将投入2000亿元研发资金,加速AI与“人车家”生态整合。
此次发布不仅填补了国产高效推理模型的空白,更通过开源策略推动行业协作,为AI应用普惠化提供技术基座。随着社区生态的完善,MiMo-V2-Flash或将成为开发者构建垂直领域智能体的重要工具。
© 版权声明
文章版权归作者所有,未经允许请勿转载。