蚂蚁百灵开源Ring-mini-2.0:轻量级AI推理模型,16B参数激活1.4B实现高效性能

AI产品动态22小时前发布 AI视野

蚂蚁百灵团队于9月16日正式开源轻量级推理模型Ring-mini-2.0,该模型基于Ling 2.0架构开发,采用高性能MoE设计,在16B总参数量下仅激活1.4B参数即可实现10B级dense模型的综合推理能力。技术文档显示,其通过Long-COT SFT、RLVR与RLHF联合优化策略,显著提升了复杂推理任务的稳定性与泛化性。

在GPQA、ARC-AGI-v1等权威基准测试中,Ring-mini-2.0展现出超越同级dense模型的性能表现,尤其在逻辑推理领域接近更大规模MoE模型的水准。其架构创新包括1/32专家激活比和MTP层设计,使等效性能达到7-8B dense模型水平。实际部署测试表明,该模型在H20环境下可实现300+ token/s的吞吐量,配合Expert Dual Streaming技术后更可提升至500+ token/s。

值得关注的是,模型采用YaRN外推技术支持128K长上下文处理,长文本生成场景下相对加速比最高达7倍。蚂蚁百灵团队承诺将完整公开模型权重、训练数据及RLVR+RLHF训练策略,此举将为学术界和工业界提供高效的小尺寸推理模型研究范本。技术团队强调,该模型特别适合需要高并发、低延迟的推理场景,有望显著降低企业级AI应用的部署成本。

© 版权声明

相关文章