Meta公司首席AI科学家、图灵奖得主杨立昆(Yann LeCun)团队于2025年6月30日发布PEVA世界模型,该研究首次实现具身智能体对16秒连贯场景的精准预测能力,标志着机器人在理解物理世界因果关系的技术路线上取得里程碑式突破。这项成果发表于当前大语言模型(LLM)主导的AI浪潮背景下,展现了LeCun长期倡导的”世界模型”理论在具身智能领域的实践价值。
PEVA模型通过融合人体48维关节运动学数据与条件扩散Transformer架构,构建了结构化动作表示系统。其核心创新在于采用第一人称视角视频与全身姿态轨迹作为训练输入,使智能体能够模仿人类动作与视觉感知的关联机制。技术实现上,运动学树结构编码将人体动作表示为以骨盆为根节点的关节层级树,结合局部坐标系转换技术消除初始位置干扰,从而完整捕捉”整体移动”与”细微关节变化”的物理特性。随机时间跳跃与跨历史帧注意力机制的引入,有效解决了长时序预测中的计算效率与动作延迟问题。
实验数据显示,PEVA在开冰箱、目标抓取等复杂任务中展现出显著优势。相较于传统依赖抽象控制信号的训练方式,该模型生成的16秒预测视频在时序连贯性与视觉保真度上均超越基线系统。值得注意的是,尽管LeCun曾公开质疑变分自编码器(VAE)的局限性,本次研究却在其预训练阶段采用了VAE编码器,这一技术选择引发学术界广泛讨论。
该研究的现实意义在于,智能体首次获得类人的”思想实验”能力——如同人类伸手取杯时能预判手臂进入视野的连续画面。这种基于物理规律的场景模拟能力,使得机器人从被动响应转向主动规划成为可能,为家居服务、医疗护理等领域的具身智能应用奠定基础。Meta公司表示,PEVA模型后续将重点优化多任务协同规划能力,推动具身智能向更复杂的现实场景拓展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。