全球最大开源具身多模态大模型Pelican-VL 1.0正式发布,性能超越GPT-5达15.79%

北京人形机器人创新中心于2025年11月13日正式宣布开源其具身智能视觉语言模型Pelican-VL 1.0,该模型是目前全球规模最大的开源具身多模态大模型,涵盖7B和72B两种参数规模。这一技术突破标志着中国在具身智能领域取得重要进展,有望推动机器人技术在多场景下的应用落地。

Pelican-VL 1.0基于刻意练习策略优化(DPPO)框架开发,整合了40亿token的多模态数据(图像、视频、文本),构建了完整的”感知-推理-动作”链路。在性能表现方面,该模型在Where2Place任务中取得64%的成功率,在RefSpatialBench任务中达到49.5%的成功率。特别值得注意的是,其零样本物体操作成功率高达76.6%,触觉闭环抓握的鸡蛋破碎率仅为2%,多机器人协作的灯泡质检成功率也达到80.5%。

与同类产品相比,Pelican-VL 1.0展现出显著优势。测试数据显示,其性能超越GPT-5同类模型15.79%,较Google Gemini系列提升19.25%,同时也优于国内通义千问、书生万象等模型。这一成就得益于其创新的训练范式——DPPO框架,该框架通过模仿人类元认知学习方式,使模型能够自主发现错误并持续优化,仅需其他大模型1/10至1/50的数据量即可实现高性能。

在技术实现层面,Pelican-VL 1.0在由1000多块A800 GPU组成的集群上进行训练,单次检查点训练消耗超过50,000 A800 GPU小时。团队从原始数据中提炼出数亿token的高质量元数据作为训练基础,最终实现基线性能提升20.3%,平均超越同类开源模型10.6%。

此次开源将显著降低具身智能技术的研发门槛,促进商业服务、工业制造、高危作业、家庭服务等场景的应用创新。值得关注的是,该项目的核心研发团队主要由女性技术人员组成,体现了科技领域多元发展的趋势。随着Pelican-VL 1.0的开源,预计将加速构建具身智能开发者生态,推动我国在该领域的技术自主化进程。

© 版权声明

相关文章