小米开源MoE模型Xiaomi MiMo-V2-Flash发布:150token/秒生成速度创纪录,性能比肩DeepSeek-V3.2

AI产品动态6小时前发布 AI视野

小米公司于12月16日正式发布开源MoE模型Xiaomi MiMo-V2-Flash,该模型凭借每秒150token的生成速度及多项性能突破引发行业关注。其总参数量达3090亿(激活参数150亿),采用混合注意力机制创新架构,包含8个混合块(每5层滑动窗口注意力对应1层全局注意力),原生支持32K训练并扩展至256K上下文窗口。

在性能表现上,该模型于SWE-Bench和多语言集中分别取得73.4%与71.7%的测试成绩,与DeepSeek-V3.2性能相当但延迟显著降低。特别在代码能力方面超越所有开源模型,接近Claude 4.5 Sonnet水平,而推理成本仅为后者的2.5%。对比测试显示,其响应速度较主流模型提升两倍,在Day-0阶段即实现每秒150token的输出效率,创下同类模型新纪录。

同步推出的Xiaomi MiMO Studio在线平台(https://aistudio.xiaomimimo.com)已开放模型体验,支持深度搜索与联网功能。小米采用MIT协议全面开源模型权重及推理代码,API定价为输入0.1美元/百万token、输出0.3美元/百万token,目前提供限时免费服务。

据透露,MiMo项目负责人罗福莉将于12月17日出席小米人车家全生态合作伙伴大会,届时可能披露更多技术细节。该模型作为小米首个专为推理优化的大语言模型,其Hybrid注意力架构与多层MTP加速技术的结合,标志着国产大模型在效率与成本控制领域的重要突破。

© 版权声明

相关文章