蚂蚁集团于2025年10月13日正式开源业界首个高性能扩散语言模型(dLLM)推理框架dInfer,标志着扩散模型在推理效率上取得里程碑式突破。该框架在多项基准测试中展现出显著优势:相较于英伟达的Fast-dLLM框架,dInfer实现平均推理速度10.7倍的提升(681 vs 63.6 TPS),并在HumanEval代码生成任务中创下1011 tokens/秒的单批次推理速度,首次使扩散模型在开源领域超越主流自回归(AR)模型性能。
技术突破与架构设计
扩散语言模型通过“从噪声逐步恢复序列”的生成范式,具备高度并行化与全局感知优势。然而其实际应用长期受限于三大工程瓶颈:高计算开销、KV缓存机制失效及并行解码困难。dInfer通过算法与系统协同创新,构建了包含四大核心模块的模块化架构:
1. 模型接入层(Model)支持LLaDA、LLaDA-MoE等主流dLLM;
2. KV缓存管理器优化内存利用率;
3. 扩散迭代管理器实现高效并行调度;
4. 可插拔解码策略模块支持灵活优化组合。
性能表现与行业影响
在配备8块NVIDIA H800 GPU的测试环境中,dInfer不仅大幅领先同类扩散框架,与vLLM框架运行的Qwen2.5-3B(AR模型)相比,其推理速度仍达2.5倍优势。这一成果证实扩散模型可通过系统性工程释放效率潜力,为AGI技术路径提供新选项。蚂蚁集团表示,dInfer的开源将加速产学研协作,推动高效AI生态建设。开发者可通过GitHub获取项目代码及技术文档。
© 版权声明
文章版权归作者所有,未经允许请勿转载。