字节跳动开源512K长文本大模型Seed-OSS-36B:性能超越Gemma3、Qwen3-32B 字节跳动开源360亿参数大模型Seed-OSS-36B,支持512K超长文本处理,性能超越Gemma3-27B和Qwen3-32B。Apache-2.0协议可免费商用,适用于法律分析、代码库理解等长文... AI产品动态# AI大模型# GPT替代方案# Seed-OSS-36B 1个月前
DeepSeek-V3.1重磅升级:128K上下文窗口震撼发布,长文本处理能力翻倍 DeepSeek-V3.1实现重大技术突破:上下文窗口扩展至128K,多步推理性能提升43%,幻觉概率降低38%。专为长文档分析、代码库理解和复杂计算场景优化,为企业级AI应用提供领先解决方案。 AI产品动态# AI模型升级# DeepSeek# MoE架构 1个月前
DeepSeek论文获ACL2025最佳论文奖:原生稀疏注意力技术突破长文本处理瓶颈 DeepSeek联合北大研发的原生稀疏注意力(NSA)获ACL2025最佳论文,该技术实现64k文本11.6倍加速,计算复杂度降至线性,支持百万tokens上下文窗口,将彻底改变法律金融等领域的长文本... AI新闻资讯# ACL2025# AI论文# DeepSeek 2个月前
MiniMax发布M1推理模型:突破百万Token上下文极限,成本效率双提升 MiniMax发布M1推理模型,该模型凭借支持100万Token上下文窗口及8万Token推理输出的能力,成为全球长文本处理领域的新标杆。 AI产品动态# AI技术# 开源模型# 推理优化 3个月前