阿里巴巴集团旗下通义千问团队于9月12日正式发布下一代基础模型架构Qwen3-Next,同步开源基于该架构的Qwen3-Next-80B-A3B系列模型。此次升级的核心突破在于采用高稀疏混合专家(MoE)架构,通过重构Transformer核心组件实现计算效率的显著提升。
技术细节显示,Qwen3-Next-80B-A3B-Base模型采用800亿参数规模设计,实际运行时仅激活30亿参数。该设计使得模型在保持与Qwen3-32B密集模型相当性能水平的同时,训练成本降低超过90%。官方测试数据表明,新架构的长文本推理吞吐量提升达10倍以上,可支持百万Token级别的超长上下文处理。
架构改进包含四大关键技术:创新的混合注意力机制、高稀疏度MoE结构、增强训练稳定性的优化方案,以及多token预测机制。这些技术升级使得模型在复杂商业决策场景中表现出更强的信息处理能力,特别是在金融分析、供应链优化等需要处理海量结构化数据的领域。
通义千问团队表示,此次开源的系列模型包含指令微调(Instruct)和推理优化(Thinking)两个版本,旨在为企业用户提供更灵活的部署选择。目前该技术已应用于阿里巴巴集团内部多个业务场景,包括电商推荐系统、云计算智能调度等核心业务板块。
© 版权声明
文章版权归作者所有,未经允许请勿转载。