商汤科技开源NEO原生多模态架构，引领AI进入“原生架构”时代

AI产品动态6个月前发布 AI视野

商汤科技于2025年12月1日正式发布并开源了与南洋理工大学S-Lab联合研发的全新多模态模型架构NEO，该架构作为日日新SenseNova多模态模型的新一代技术基石，标志着人工智能多模态技术进入“原生架构”时代。NEO是业内首个可实现深层次融合的原生多模态架构（Native VLM），其设计从底层原理突破传统模块化范式的局限，通过核心架构层面的多模态深层融合，在性能、效率与通用性上实现整体跃升。

当前主流多模态模型普遍采用“视觉编码器+投影器+语言模型”的模块化设计，虽兼容图像输入，但本质上仍以语言为中心，导致图像与语言的融合仅停留在数据层面。这种结构不仅学习效率低，更制约了模型在复杂场景（如细节捕捉、空间结构理解）中的表现。NEO架构通过三大内核创新解决这一痛点：原生图块嵌入技术（Native Patch Embedding）摒弃离散图像tokenizer，利用独创的Patch Embedding Layer构建像素到词元的连续映射；统一注意力机制实现视觉与语言信号的同步处理；动态位置编码则消除了模态间的空间偏差。

商汤科技自2024年下半年起已在国内率先突破多模态原生融合训练技术，其SenseNova 6.0模型曾同时在SuperCLUE语言评测和OpenCompass多模态评测中夺冠。此次发布的NEO架构进一步从底层重构设计，目前已开源2B与9B两种规格模型，相关论文及代码均已在arXiv和GitHub平台公开。商汤表示，将通过开源协作与场景落地双轮驱动，推动该技术成为下一代AI基础设施，加速构建产业级原生多模态技术标准。

文章版权归作者所有，未经允许请勿转载。

商汤科技开源NEO原生多模态架构，引领AI进入“原生架构”时代

生数科技Vidu Q2生图功能重磅升级：文生图与编辑模块上线，AI创作效率革命性提升

阶跃星辰开源GELab-Zero项目：4B参数GUI Agent模型突破移动端智能体技术

相关文章

小米HyperOS 3重磅升级：AI相册2.0与系统性能全面进化

元石科技发布旗舰模型“问小白5”，国产AI实现重大突破

中国智造新里程碑！远征A2人形机器人创106公里行走世界纪录

腾讯混元发布Direct-Align与SRPO技术，AI绘画效率提升300%

最新资讯

热门AI工具

热门资讯