英伟达近日发布Jet-Nemotron系列小型语言模型(2B/4B参数),由全华人团队主导开发,凭借创新的后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,在性能与效率上实现双重突破。该系列模型在数学、代码、常识推理、检索及长上下文任务中表现卓越,超越Qwen3、Gemma3、Llama3.2等主流开源模型,同时在H100 GPU上推理吞吐量最高提升53.6倍,成为当前小模型领域的技术标杆。
核心技术创新
Jet-Nemotron采用PostNAS技术,通过冻结预训练Transformer的多层感知机权重,动态优化注意力层结构与模块设计,显著降低架构探索成本。JetBlock模块结合动态卷积与硬件感知搜索,在保持训练稳定性的同时提升线性注意力效率。两项技术协同使得模型在长上下文场景(如256K token)下解码速度提升达50倍,且准确率未受妥协。
性能表现
基准测试显示,Jet-Nemotron-4B在MMLU-Pro、数学、检索等六维度任务中接近满分表现;2B版本相比Qwen3-1.7B-base吞吐量提升47倍,缓存需求缩减至1/47。在复杂推理任务中,其准确率甚至超越部分70B参数级大模型,而推理成本仅为后者的1/30。
行业影响
英伟达连续发布NemotronNano2与Jet-Nemotron系列,凸显其对高效推理技术的战略布局。该模型适用于边缘计算与实时交互场景,有望加速AI Agent在医疗、金融等领域的落地。开源代码与预训练模型已通过GitHub发布,将进一步推动社区协作与产业应用创新。
© 版权声明
文章版权归作者所有,未经允许请勿转载。