长文本处理

月之暗面开源Kimi Linear混合注意力架构，通过KDA模块实现KV缓存降低75%、解码吞吐量提升6倍，在1M tokens长上下文任务中性能提升6.3倍，现已集成至阿里云PAI平台，加速AI在智...

7个月前

DeepSeek团队开源30亿参数OCR模型DeepSeek-OCR，采用创新光学压缩技术实现97%识别精度。该模型在长文本处理、多分辨率输入方面表现卓越，为金融、医疗、出版行业提供高效数字化解决方案...

7个月前

蚂蚁百灵开源Ring-mini-linear-2.0与Ring-flash-linear-2.0混合线性推理模型，通过线性Attention技术将长文本推理成本降至传统模型十分之一，推理效率提升12倍...

8个月前

DeepSeek推出实验性V3.2-Exp模型，采用自研DSA稀疏注意力机制显著提升长文本训练推理效率，API调用成本降低超50%，支持160K长上下文，已在HuggingFace等平台开源。

8个月前

字节跳动开源360亿参数大模型Seed-OSS-36B，支持512K超长文本处理，性能超越Gemma3-27B和Qwen3-32B。Apache-2.0协议可免费商用，适用于法律分析、代码库理解等长文...

9个月前

DeepSeek-V3.1实现重大技术突破：上下文窗口扩展至128K，多步推理性能提升43%，幻觉概率降低38%。专为长文档分析、代码库理解和复杂计算场景优化，为企业级AI应用提供领先解决方案。

9个月前

DeepSeek联合北大研发的原生稀疏注意力(NSA)获ACL2025最佳论文，该技术实现64k文本11.6倍加速，计算复杂度降至线性，支持百万tokens上下文窗口，将彻底改变法律金融等领域的长文本...

10个月前

MiniMax发布M1推理模型，该模型凭借支持100万Token上下文窗口及8万Token推理输出的能力，成为全球长文本处理领域的新标杆。

12个月前