全球最大开源具身多模态大模型Pelican-VL 1.0正式发布，性能超越GPT-5达15.79%

AI产品动态7个月前发布 AI视野

北京人形机器人创新中心于2025年11月13日正式宣布开源其具身智能视觉语言模型Pelican-VL 1.0，该模型是目前全球规模最大的开源具身多模态大模型，涵盖7B和72B两种参数规模。这一技术突破标志着中国在具身智能领域取得重要进展，有望推动机器人技术在多场景下的应用落地。

Pelican-VL 1.0基于刻意练习策略优化（DPPO）框架开发，整合了40亿token的多模态数据（图像、视频、文本），构建了完整的”感知-推理-动作”链路。在性能表现方面，该模型在Where2Place任务中取得64%的成功率，在RefSpatialBench任务中达到49.5%的成功率。特别值得注意的是，其零样本物体操作成功率高达76.6%，触觉闭环抓握的鸡蛋破碎率仅为2%，多机器人协作的灯泡质检成功率也达到80.5%。

与同类产品相比，Pelican-VL 1.0展现出显著优势。测试数据显示，其性能超越GPT-5同类模型15.79%，较Google Gemini系列提升19.25%，同时也优于国内通义千问、书生万象等模型。这一成就得益于其创新的训练范式——DPPO框架，该框架通过模仿人类元认知学习方式，使模型能够自主发现错误并持续优化，仅需其他大模型1/10至1/50的数据量即可实现高性能。

在技术实现层面，Pelican-VL 1.0在由1000多块A800 GPU组成的集群上进行训练，单次检查点训练消耗超过50,000 A800 GPU小时。团队从原始数据中提炼出数亿token的高质量元数据作为训练基础，最终实现基线性能提升20.3%，平均超越同类开源模型10.6%。

此次开源将显著降低具身智能技术的研发门槛，促进商业服务、工业制造、高危作业、家庭服务等场景的应用创新。值得关注的是，该项目的核心研发团队主要由女性技术人员组成，体现了科技领域多元发展的趋势。随着Pelican-VL 1.0的开源，预计将加速构建具身智能开发者生态，推动我国在该领域的技术自主化进程。

文章版权归作者所有，未经允许请勿转载。

全球最大开源具身多模态大模型Pelican-VL 1.0正式发布，性能超越GPT-5达15.79%

百度发布GenFlow3.0智能体：全球最大通用智能体突破2000万用户，办公创作效率革命

李飞飞WorldLabs发布商用多模态世界模型Marble，开启空间智能商业化新纪元

相关文章

AI Excel助手Shortcut在MEWC赛事中表现亮眼，效率超人类10倍

科大讯飞发布全球首款本地大模型墨水屏智能办公本X5，开启离线AI办公新时代

阿里通义千问视觉模型登顶全球空间推理榜，超越GPT-5.1和Gemini 3

阶跃星辰推出桌面AI助手“小跃”：支持复杂任务自主执行与健康管理，MacOS版开启测试

最新资讯

热门AI工具

热门资讯