蚂蚁百灵团队近日开源了两款混合线性推理模型Ring-mini-linear-2.0与Ring-flash-linear-2.0,这一技术突破将长文本处理的推理成本降至传统密集模型的十分之一,同时保持了较高的精度水平。该系列模型通过引入混合线性注意力机制,显著提升了处理效率,尤其适用于电商客服、法律合同分析及金融风控等长文本场景。
实测数据显示,新模型在512k最大上下文长度下,推理成本较原有Ring模型降低50%以上,吞吐量达到同类8B模型的12倍。其核心技术在于采用线性Attention替代87.5%的传统Attention层,使计算复杂度从平方级降为线性增长,配合高稀疏MoE架构将专家激活率控制在1/32,实现计算资源的高效利用。
在金融领域实际应用中,某互金平台采用Ring-flash-linear-2.0后,风控响应时间从分钟级缩短至秒级,F1值提升3个百分点。某企业客服系统接入后,原需10张A100显卡的任务现仅需1张即可完成,月度GPU成本从2万元降至8000元。模型还支持昇腾910B芯片原生加速,在Azure云平台可实现500并发量,P99延迟控制在180毫秒以内。
目前该系列模型已在阿里云PAI、华为云ModelArts等平台上线,超过200家企业启动接入测试。开源社区反馈显示,开发者可快速部署生成代码、股票分析等应用原型,6.1B参数的模型性能接近40B级密集模型效果。这一进展为中小企业降低AI应用门槛提供了实质性解决方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。