英伟达Jet-Nemotron开源:2B/4B参数模型实现53倍推理吞吐量突破

英伟达全华人团队韩松实验室近日发布高性能语言模型Jet-Nemotron系列,并宣布将全面开源。该系列包含2B和4B参数版本,采用创新的后神经架构搜索(PostNAS)技术与新型线性注意力模块JetBlock,在多项基准测试中超越主流模型,同时实现最高53倍的推理吞吐量提升。

技术突破方面,Jet-Nemotron通过PostNAS技术对预训练Transformer模型进行架构优化,支持动态调整注意力块设计。这种方法显著降低了新架构开发成本,同时保持模型性能。JetBlock模块结合动态卷积与硬件感知架构搜索,使线性注意力在保持训练效率的同时,准确率获得显著提升。测试数据显示,Jet-Nemotron-2B在H100 GPU上处理64K上下文时,生成吞吐量较Qwen3-1.7B-base提升47倍,MMLU-Pro准确率更高;4B版本虽参数增加,吞吐量仍优于所有2B以下全注意力模型。

性能表现上,该系列在数学、代码、常识推理及长上下文处理等维度均优于Qwen3、Gemma3和Llama3.2等对标模型。特别在复杂推理场景中,解码速度提升达50倍且准确率未降反升。团队强调,模型基于Qwen2.5优秀基座进行优化,通过”架构手术”保留原有知识体系,专注提升推理效率。

此次开源延续了英伟达近期推动AI技术民主化的策略。此前该公司的Nemotron生态已陆续开源包括340B参数大模型在内的多款产品。业界认为,Jet-Nemotron的发布将进一步降低高性能AI模型的应用门槛,为科研与商业领域提供更高效的解决方案。目前相关技术细节已通过论文公开,模型代码及权重预计将在近期发布至开源社区。

© 版权声明

相关文章