谷歌DeepMind Veo 3模型突破:视频模型展现感知、建模、操纵、推理四层能力

谷歌DeepMind最新发布的Veo 3模型论文《Video models are zero-shot learners and reasoners》揭示了该模型在视觉领域的突破性进展。研究表明,Veo 3已涌现出感知、建模、操纵和推理四层递进能力,标志着视频模型正成为理解视觉世界的统一平台。

在感知层面,Veo 3展现出零样本执行经典计算机视觉任务的能力,包括边缘检测、图像分割、关键点定位等。值得注意的是,其边缘检测结果甚至超越了标准数据集的标注精度,捕捉到更多细节纹理。此外,模型还能处理复杂认知任务,如解读模糊图像和罗夏墨迹测试。

建模能力方面,Veo 3展示了对物理世界的深刻理解,包括刚体动力学、材料属性等直观物理学知识。这种建模能力为后续的操纵和推理奠定了基础。在操纵层,模型可以基于对世界的理解进行有目的的编辑和改变。

最引人注目的是其时空推理能力。研究人员通过迷宫求解等任务证明,Veo 3能够进行多步骤的逻辑推演,在连续操作中保持时空一致性。这种能力类似于自然语言处理中的思维链(CoT),研究者将其命名为”帧链”(CoF)。

论文指出,Veo 3的涌现能力预示着计算机视觉领域可能迎来类似NLP领域GPT-3时刻的范式转变。该模型仅需通过指令微调就能适应多种视觉任务,有望取代传统定制化计算机视觉模型。目前Veo 3已在美国通过谷歌Ultra会员计划开放使用,企业用户可通过Vertex AI平台获取服务。

© 版权声明

相关文章