商汤科技开源NEO原生多模态架构,引领AI进入“原生架构”时代

商汤科技于2025年12月1日正式发布并开源了与南洋理工大学S-Lab联合研发的全新多模态模型架构NEO,该架构作为日日新SenseNova多模态模型的新一代技术基石,标志着人工智能多模态技术进入“原生架构”时代。NEO是业内首个可实现深层次融合的原生多模态架构(Native VLM),其设计从底层原理突破传统模块化范式的局限,通过核心架构层面的多模态深层融合,在性能、效率与通用性上实现整体跃升。

当前主流多模态模型普遍采用“视觉编码器+投影器+语言模型”的模块化设计,虽兼容图像输入,但本质上仍以语言为中心,导致图像与语言的融合仅停留在数据层面。这种结构不仅学习效率低,更制约了模型在复杂场景(如细节捕捉、空间结构理解)中的表现。NEO架构通过三大内核创新解决这一痛点:原生图块嵌入技术(Native Patch Embedding)摒弃离散图像tokenizer,利用独创的Patch Embedding Layer构建像素到词元的连续映射;统一注意力机制实现视觉与语言信号的同步处理;动态位置编码则消除了模态间的空间偏差。

商汤科技自2024年下半年起已在国内率先突破多模态原生融合训练技术,其SenseNova 6.0模型曾同时在SuperCLUE语言评测和OpenCompass多模态评测中夺冠。此次发布的NEO架构进一步从底层重构设计,目前已开源2B与9B两种规格模型,相关论文及代码均已在arXiv和GitHub平台公开。商汤表示,将通过开源协作与场景落地双轮驱动,推动该技术成为下一代AI基础设施,加速构建产业级原生多模态技术标准。

© 版权声明

相关文章