DeepSeek论文获ACL2025最佳论文奖:原生稀疏注意力技术突破长文本处理瓶颈

ACL2025年度颁奖典礼上,由DeepSeek创始人梁文锋担任通讯作者、与北京大学等机构联合完成的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》从8360篇投稿中脱颖而出,斩获最佳论文奖。这一成果标志着自然语言处理领域在长文本效率优化方面取得重大突破。

论文提出的原生稀疏注意力(NSA)机制通过算法与硬件的协同设计,实现了长文本处理速度的显著提升。技术核心在于动态分层稀疏策略:压缩注意力快速捕捉全局信息,选择性注意力聚焦关键词块,滑动注意力补充局部细节。三支并行注意力分支的协同工作,使64k长度文本的解码速度提升11.6倍,前向传播加速9倍,反向传播效率提高6倍。值得注意的是,在27B参数模型的通用基准测试中,NSA在9项指标中有7项超越传统全注意力模型,其中DROP和GSM8K推理测试分别提升0.042和0.034。

该技术的突破性体现在三个方面:首先,计算复杂度从平方级降至线性,处理64k文本时注意力计算延迟占比从70-80%大幅降低;其次,支持上下文窗口扩展至百万tokens量级;第三,采用端到端的硬件原生优化方案,使GPU算力利用率显著提升。据第一作者袁境阳透露,NSA技术已确定应用于DeepSeek-V4和DeepSeek-R2的研发,相关产品将具备处理整本图书级长文档的能力。

行业观察人士指出,这项技术有望重塑法律文书分析、金融研报处理等长文本应用场景的格局。开源社区已在论文公布后迅速启动复现工作,早期测试显示显存占用可降低50%。随着NSA技术的产业化落地,大模型处理长文本的高成本瓶颈或将迎来根本性解决方案。

© 版权声明

相关文章