在人工智能领域顶级会议NeurIPS 2025上,阿里巴巴通义千问团队的研究成果《Attention Gating Makes Better Foundation Models》从全球超过2万篇投稿论文中脱颖而出,荣获最佳论文奖,成为本届会议四篇获奖论文中唯一来自中国的团队。该研究首次系统揭示了注意力门控机制对大模型性能与训练稳定性的影响,被学术界视为突破当前大模型技术瓶颈的关键进展。
NeurIPS作为人工智能领域最具影响力的学术会议之一,曾诞生Transformer、AlexNet等里程碑式成果。本届会议投稿量创历史新高,录取率仅为25%,最佳论文入选概率不足万分之二。通义千问团队提出的”动态注意力门控”技术,通过在标准注意力模块后叠加可学习的门控层,实现了计算资源的智能分配。这种机制如同为模型安装”智能筛选器”,能动态判断哪些注意力头和语言单元需要参与后续计算。
研究团队在1.7B参数的稠密模型和15B参数的混合专家模型上进行了数十组实验,单组训练量最高达3.5万亿tokens。实验数据显示,该方法仅增加1%的参数量,便使语言模型困惑度降低0.2以上,在多任务语言理解基准MMLU上提升2分,在Pile数据集各子领域均取得显著效果。目前该技术已应用于Qwen3-Next模型,相关技术方案及模型均已开源。
门控机制长期被视为模型的”智能阀门”,但此前学术界对其在注意力机制中的作用原理缺乏系统认知。这项研究首次明确了门控注意力对模型性能的影响规律,为构建更稳定、高效的大模型提供了新思路。NeurIPS评审委员会评价称,该成果将极大推动学界对注意力机制的理解,其应用价值已在实际模型中得到验证。
阿里巴巴表示,对门控机制的深入理解不仅革新了大模型架构设计方法论,也为实现更可控的AI系统奠定了基础。截至目前,通义千问开源模型全球下载量已突破7亿次,衍生模型超过18万个,持续领跑全球开源社区。这项突破性研究标志着中国在人工智能基础理论领域取得重要进展,有望加速下一代大模型的演进。
© 版权声明
文章版权归作者所有,未经允许请勿转载。