小米发布开源推理模型MiMo-V2-Flash：3090亿参数、150 tokens/秒生成速度，加速AI智能体落地

AI产品动态5个月前发布 AI视野

在2025年12月17日举办的“小米人车家全生态合作伙伴大会”上，小米集团正式发布自研开源推理模型 MiMo-V2-Flash，标志着其在AI大模型领域的技术突破与生态布局进入新阶段。该模型由小米MiMo大模型负责人罗福莉首次公开介绍，其核心设计聚焦于高效推理与低成本落地，为智能体应用提供底层支持。

技术架构与性能表现
MiMo-V2-Flash采用专家混合架构（MoE），总参数量达3090亿，活跃参数仅150亿，通过三层多Token预测（MTP）技术实现推理速度提升2.0至2.6倍，峰值生成速度达150 tokens/秒。其创新性混合注意力机制结合全局注意力与滑动窗口注意力（窗口固定为128 token），在保持256k长上下文处理能力的同时，将KV缓存存储量降低6倍。训练阶段采用FP8混合精度及多教师在线策略蒸馏（MOPD），显著减少算力需求。

开源生态与行业竞争力
模型以MIT协议开源，在权威测试中表现突出：SWE-bench Verified编程任务解决率达73.4%，超越主流开源模型；AIME 2025数学竞赛、GPQA-Diamond科学测试均位列开源模型前二。智能体任务中，通信类得分95.3，零售类79.5，验证了复杂场景下的交互能力。成本方面，输入/输出定价为每百万token 0.¹⁄₀.3美元，仅为同类闭源模型的2.5%。

应用场景与战略意义
小米同步推出在线体验平台Xiaomi MiMO Studio，支持深度搜索与联网交互。技术团队演示了模型构建操作系统、模拟太阳系等多元能力，凸显其在智能家居、自动驾驶等小米核心业务中的落地潜力。集团总裁卢伟冰强调，未来五年将投入2000亿元研发资金，加速AI与“人车家”生态整合。

此次发布不仅填补了国产高效推理模型的空白，更通过开源策略推动行业协作，为AI应用普惠化提供技术基座。随着社区生态的完善，MiMo-V2-Flash或将成为开发者构建垂直领域智能体的重要工具。

文章版权归作者所有，未经允许请勿转载。

小米发布开源推理模型MiMo-V2-Flash：3090亿参数、150 tokens/秒生成速度，加速AI智能体落地

阿里推出免费AI教育应用“千问智学”，覆盖全学段并提供一对一智能辅导

亚马逊Alexa+ 2026升级：整合四大生活平台，语音助手迈向全能生活管家

相关文章

小红书办公应用升级为“hi”，新增AI助手hibo打造智能办公新体验

阶跃星辰发布第三代大模型Step 3，7月31日全球开源，性能超越国内外同类模型

滴滴AI出行助手“小滴Beta v0.8”公测启动：语音叫车3秒匹配定制方案

东南亚AI格局生变：新加坡国家AI计划弃用Llama转向阿里通义千问，Qwen-SEA-LION-v4登顶区域榜单

最新资讯

热门AI工具

热门资讯