字节跳动开源512K长文本大模型Seed-OSS-36B:性能超越Gemma3、Qwen3-32B

AI产品动态11小时前发布 AI视野

字节跳动Seed团队于8月21日正式开源360亿参数大模型Seed-OSS-36B系列,该系列包含基础版、无合成数据版及指令微调版三个版本,均采用Apache-2.0协议,支持学术与商业场景自由使用。其核心突破在于原生支持512K超长上下文窗口,相当于1600页文本处理能力,是当前主流开源模型128K窗口的4倍,且在预训练阶段即实现该特性,非后期插值扩展。

模型架构采用分组查询注意力(GQA)、RoPE位置编码等前沿技术,通过12万亿tokens训练,在通用知识、编程、Agent任务等7项基准测试中刷新同量级开源模型纪录,性能超越Qwen3-32B、Gemma3-27B等竞品。特别设计的”思考预算”机制允许用户动态控制推理深度,通过设定512整数倍的token数量平衡响应速度与思考深度。

针对研究需求,团队同步发布含/不含合成指令数据的预训练模型,避免数据偏差干扰后续研究。目前模型已部署于Hugging Face和GitHub平台,适用于法律文档分析、复杂代码库理解等需处理海量信息的专业场景。此次开源被视为字节跳动对标OpenAI GPT-OSS系列的重要布局,但未涉及核心商业模型”豆包”的技术开放。

© 版权声明

相关文章