北京时间7月9日凌晨,全球知名AI开源平台Hugging Face正式发布轻量级大语言模型SmolLM3,该模型以30亿参数的规模实现性能突破,在多项基准测试中超越Llama-3.2-3B、Qwen2.5-3B等同类开源模型,并与4B参数级别的Gemma3表现相当。
技术创新与性能表现
SmolLM3采用分组查询注意力(GQA)和NoPE技术优化的Transformer解码器架构,通过11.2万亿token的混合数据集(涵盖网页、代码、数学及推理数据)进行预训练,显著提升知识理解、逻辑推理及多语言处理能力。模型在HellaSwag、ARC等基准测试中位列前茅,尤其在复杂任务如AIME2025数学竞赛测试中,思考模式下的准确率较传统模式提升近27个百分点。
双模式推理与长上下文支持
该模型首创”思考”(深度推理)与”非思考”(快速响应)双模式切换功能,可根据任务需求动态调整计算资源。同时,通过YaRN技术扩展上下文窗口至128K token,在Ruler64k长序列测试中展现优异表现,适用于需处理超长文本的金融、法律等专业场景。
多语言与开源生态
SmolLM3原生支持英、法、西、德等6种语言,并在中文、阿拉伯语等语言上具备基础能力。Hugging Face同步公开了完整的训练框架、数据混合策略及模型权重,开发者可通过官方仓库复现或优化模型,推动轻量化AI应用的快速落地。
目前,SmolLM3已上线Hugging Face模型库,提供基础版与指令微调版下载。业界认为,这一发布将加速高效AI模型在边缘计算与实时交互场景的普及。
© 版权声明
文章版权归作者所有,未经允许请勿转载。