Meta发布16亿参数VL-JEPA模型:非生成式视觉-语言模型实现实时推理突破

AI新闻资讯10小时前发布 AI视野

近日,Meta联合香港科技大学、索邦大学及纽约大学的研究团队公布了视觉-语言联合嵌入预测架构(VL-JEPA)的最新研究成果。这一仅含16亿参数的模型在通用领域视觉-语言任务中展现出与720亿参数级Qwen-VL相媲美的性能,标志着非生成式模型在实时多模态理解领域取得突破性进展。

VL-JEPA的核心创新在于摒弃传统视觉-语言模型的自回归token生成方式,转而预测目标文本的连续嵌入。该架构通过抽象表征空间学习,有效聚焦任务相关语义特征,显著降低对表层语言形式的依赖性。研究团队证实,这种设计使模型在保持轻量化的同时,能够完成包括描述生成、视觉问答、跨模态检索等复杂任务,尤其适用于对实时性要求严苛的可穿戴设备与机器人应用场景。

值得注意的是,VL-JEPA是首个实现实时推理的通用领域非生成式视觉-语言模型。相较于传统大型视觉-语言模型(VLM),其优势主要体现在两方面:首先,通过消除对token级生成的依赖,大幅降低训练与推理成本;其次,抽象表征预测机制赋予模型更强的语义泛化能力,使其能适应动态物理环境中的多模态交互需求。该成果已发表于预印本平台arXiv,论文作者包括JEPA架构创始人Yann LeCun在内的跨国研究团队。

此次突破延续了Meta在联合嵌入预测架构上的技术路线。此前该团队已相继推出专注于图像理解的I-JEPA和视频预测模型V-JEPA 2,而VL-JEPA的诞生将这一技术范式成功扩展至视觉-语言联合表征学习领域。业界观察人士指出,这种轻量化高性能模型的开发策略,与当前AI行业追求模型效率提升的趋势高度契合。

© 版权声明

相关文章