蚂蚁技术研究院发布LLaDA2.0系列扩散大模型,参数突破百亿颠覆传统架构

蚂蚁技术研究院于2025年12月12日正式发布LLaDA2.0系列离散扩散大语言模型(dLLM),标志着扩散模型技术迈入百亿参数时代。该系列包含基于混合专家(MoE)架构的16B(mini)与100B(flash)两个版本,首次实现扩散模型参数规模突破千亿量级,颠覆了业界对扩散架构难以扩展的传统认知。

技术突破方面,LLaDA2.0通过创新的Warmup-Stable-Decay(WSD)持续预训练策略,有效继承现有自回归(AR)模型的知识体系,降低90%以上的训练成本。结合置信度感知并行训练(CAP)和扩散版DPO优化方法,模型在保持生成质量的同时,充分发挥并行解码特性,实现535 tokens/s的推理速度,较同级AR模型提升2.1倍。在代码生成、数学推理及智能体任务等关键场景中,其性能表现均超越传统AR架构。

评估数据显示,该模型在结构化文本生成(如编程代码)方面具有显著优势,长文本处理能力得益于几何加权注意力机制和分块扩散策略的优化。蚂蚁研究院同步开源了完整模型权重及训练框架,支持5D并行计算与灵活注意力适配,为行业提供首个可规模化应用的扩散模型解决方案。

此次发布验证了超大规模参数下扩散模型的工程可行性,其动态注意力掩码设计既保留全局上下文捕捉能力,又维持序列连贯性,为生成式AI技术开辟了新路径。

© 版权声明

相关文章