字节跳动开源512K长文本大模型Seed-OSS-36B：性能超越Gemma3、Qwen3-32B

AI产品动态9个月前发布 AI视野

字节跳动Seed团队于8月21日正式开源360亿参数大模型Seed-OSS-36B系列，该系列包含基础版、无合成数据版及指令微调版三个版本，均采用Apache-2.0协议，支持学术与商业场景自由使用。其核心突破在于原生支持512K超长上下文窗口，相当于1600页文本处理能力，是当前主流开源模型128K窗口的4倍，且在预训练阶段即实现该特性，非后期插值扩展。

模型架构采用分组查询注意力（GQA）、RoPE位置编码等前沿技术，通过12万亿tokens训练，在通用知识、编程、Agent任务等7项基准测试中刷新同量级开源模型纪录，性能超越Qwen3-32B、Gemma3-27B等竞品。特别设计的”思考预算”机制允许用户动态控制推理深度，通过设定512整数倍的token数量平衡响应速度与思考深度。

针对研究需求，团队同步发布含/不含合成指令数据的预训练模型，避免数据偏差干扰后续研究。目前模型已部署于Hugging Face和GitHub平台，适用于法律文档分析、复杂代码库理解等需处理海量信息的专业场景。此次开源被视为字节跳动对标OpenAI GPT-OSS系列的重要布局，但未涉及核心商业模型”豆包”的技术开放。

文章版权归作者所有，未经允许请勿转载。

字节跳动开源512K长文本大模型Seed-OSS-36B：性能超越Gemma3、Qwen3-32B

网易有道发布“子曰”教育大模型AI新品推出行业首个人工智能教育应用分级标准

百度蒸汽机2.0全球首发多人有声视频生成，成本直降70%

相关文章

微软发布自研图像生成模型MAI-Image-1，LMArena榜单跻身前十

Second Me 1.1版本上线：AI主动介入社交，重构对话体验与人际连接

全球首个开源多模态AI记忆系统MIRIX发布，实现长期记忆突破

Eigen-1多智能体系统在HLE测试中创历史新高，准确率突破60%大关

最新资讯

热门AI工具

热门资讯

字节跳动开源512K长文本大模型Seed-OSS-36B：性能超越Gemma3、Qwen3-32B

网易有道发布“子曰”教育大模型AI新品 推出行业首个人工智能教育应用分级标准

百度蒸汽机2.0全球首发多人有声视频生成，成本直降70%

相关文章

微软发布自研图像生成模型MAI-Image-1，LMArena榜单跻身前十

Second Me 1.1版本上线：AI主动介入社交，重构对话体验与人际连接

全球首个开源多模态AI记忆系统MIRIX发布，实现长期记忆突破

Eigen-1多智能体系统在HLE测试中创历史新高，准确率突破60%大关

最新资讯

热门AI工具

热门资讯

网易有道发布“子曰”教育大模型AI新品推出行业首个人工智能教育应用分级标准