谷歌DeepMind Veo 3模型突破：视频模型展现感知、建模、操纵、推理四层能力

AI产品动态8个月前发布 AI视野

谷歌DeepMind最新发布的Veo 3模型论文《Video models are zero-shot learners and reasoners》揭示了该模型在视觉领域的突破性进展。研究表明，Veo 3已涌现出感知、建模、操纵和推理四层递进能力，标志着视频模型正成为理解视觉世界的统一平台。

在感知层面，Veo 3展现出零样本执行经典计算机视觉任务的能力，包括边缘检测、图像分割、关键点定位等。值得注意的是，其边缘检测结果甚至超越了标准数据集的标注精度，捕捉到更多细节纹理。此外，模型还能处理复杂认知任务，如解读模糊图像和罗夏墨迹测试。

建模能力方面，Veo 3展示了对物理世界的深刻理解，包括刚体动力学、材料属性等直观物理学知识。这种建模能力为后续的操纵和推理奠定了基础。在操纵层，模型可以基于对世界的理解进行有目的的编辑和改变。

最引人注目的是其时空推理能力。研究人员通过迷宫求解等任务证明，Veo 3能够进行多步骤的逻辑推演，在连续操作中保持时空一致性。这种能力类似于自然语言处理中的思维链（CoT），研究者将其命名为”帧链”（CoF）。

论文指出，Veo 3的涌现能力预示着计算机视觉领域可能迎来类似NLP领域GPT-3时刻的范式转变。该模型仅需通过指令微调就能适应多种视觉任务，有望取代传统定制化计算机视觉模型。目前Veo 3已在美国通过谷歌Ultra会员计划开放使用，企业用户可通过Vertex AI平台获取服务。

AI产品动态 # AI视觉 # Veo3 # 人工智能 # 视频模型 # 计算机视觉 # 谷歌DeepMind # 零样本学习

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

腾讯元宝推出定时任务功能，AI效率助手再升级

腾讯元宝推出定时任务功能，AI效率助手再升级

AI产品动态 # AI助手 # AI效率工具 # DeepSeek

5个月前

Meta推出AI工具Metamate：员工绩效评估进入分钟级时代

Meta推出AI工具Metamate：员工绩效评估进入分钟级时代

7个月前

上海发布开源体系建设方案：打造AI国际开源社区，最高奖励500万扶持优质项目

上海发布开源体系建设方案：打造AI国际开源社区，最高奖励500万扶持优质项目

AI新闻资讯 # AI开源 # 上海政策 # 人工智能

5个月前

微信AI播客灰度测试：双人对话式新闻播客上线，基于混元大模型语音生成

微信AI播客灰度测试：双人对话式新闻播客上线，基于混元大模型语音生成

AI产品动态 # AI播客 # 微信 # 新闻播客

9个月前