DeepSeek推出V3.2-Exp实验模型:自研DSA稀疏注意力机制大幅提升长文本处理效率

AI产品动态4小时前发布 AI视野

9月29日,DeepSeek正式推出实验性模型DeepSeek-V3.2-Exp,标志着其在高效Transformer架构研发道路上迈出关键一步。该版本作为V3.1-Terminus的迭代升级,核心创新在于引入自研的DeepSeek Sparse Attention(DSA)稀疏注意力机制,重点优化长文本场景下的训练与推理效率。

技术验证显示,DSA机制通过细粒度稀疏化处理,在保持模型输出质量稳定的前提下,显著提升长文本处理效率。为确保技术严谨性,研发团队采用与V3.1-Terminus完全对齐的训练配置进行对比验证。公开评测数据显示,新模型在MMLU-Pro等基准测试中维持原有水准,在数学推理(AIME2025提升0.9分)和编程任务(Codeforces提升75分)等特定领域呈现优化趋势。

商业应用方面,DeepSeek同步实施重大价格调整:API调用成本整体降幅超50%,具体实施新价目为输入缓存命中0.2元、未命中2元,输出3元。目前官方全平台(App/网页/小程序)已完成版本更新,华为云平台更实现160K长上下文支持。为保障用户平稳过渡,V3.1-Terminus的API接口将保留至10月15日供对比测试。

开源生态建设取得新进展,模型及相关技术资料已在HuggingFace和ModelScope平台全面开源,包括创新研发的TileLang与CUDA双版本GPU算子。研发团队强调,此次发布旨在收集真实场景反馈,为下一代架构演进积累实证数据。

© 版权声明

相关文章