德国TNG Technology Consulting GmbH公司近日发布了基于DeepSeek架构的升级版大语言模型“DeepSeek-TNG R1T2 Chimera”(简称R1T2)。该模型在性能与效率方面实现突破性进展,其推理速度较原版DeepSeek-R1-0528提升200%,同时保持同等智力水平。
作为拥有6710亿参数的开源混合模型,R1T2采用了TNG团队独创的集合专家(AoE)方法,通过优化响应机制显著降低冗余度。测试表明,该模型能在保证回答质量的前提下,大幅减少输出token数量,从而提升推理效率并降低计算成本。技术团队特别指出,R1T2在未使用系统提示的情况下仍能保持稳定的对话表现,展现出优异的自然交互能力。
值得注意的是,这是TNG继R1T Chimera后推出的第二代改进模型。新版引入了创新的“Tri-Mind”架构,整合了DeepSeek-R1-0528等三个父模型的优势。公司联合创始人Henrik Klagges表示,该成果源于团队在混合专家(MoE)模块化结构领域的长期研究,其领英资料显示这位牛津大学毕业生已领导TNG团队24年。
目前该模型权重已在Hugging Face平台开源,社区反馈显示用户对其智能与效率的平衡表现给予高度评价。部分开发者认为,R1T2的成功实践为开源大模型优化提供了新的技术路径。
© 版权声明
文章版权归作者所有,未经允许请勿转载。