字节跳动Seed团队于2025年7月22日正式发布通用机器人模型GR-3及配套机器人ByteMini,标志着智能机器人技术取得重要突破。GR-3作为全新Vision-Language-Action(VLA)模型,通过创新架构与训练方法实现了多项行业领先能力。
技术核心方面,GR-3采用40亿参数的Mixture-of-Transformers网络结构,整合视觉-语言模块与动作生成模块。其动作生成模块基于Diffusion Transformer结合Flow-Matching技术,配合RMSNorm设计,显著提升动态指令跟随能力。测试显示,该模型在训练场景中的指令遵循率达98.1%,新环境中性能衰减不足2%。
训练数据策略上,团队突破传统单一数据源限制,采用三合一训练法:通过遥操作机器人收集真机数据保证基础能力;利用VR设备采集人类轨迹数据(效率达450条/小时,较传统方法提升80%);融合公开图文数据增强泛化能力。这种多源数据融合使GR-3在未见物体抓取任务中成功率提升17.8%,仅需10条人类数据即可将新物体操作成功率从60%提升至80%以上。
实际应用表现中,GR-3展现出三大特性:1)长程任务处理能力,在包含10个子任务的餐桌整理中保持95%完成度;2)高灵巧度操作,可完成挂衣服等柔性物体双手协同作业;3)强泛化性,能理解”雪碧旁边的可乐”等空间关系指令,并对短袖等未见衣物保持操作稳定性。
配套的ByteMini机器人作为物理载体,配备22个全身自由度及球形手腕设计,可在30cm狭窄空间完成精细操作。其与GR-3形成的”大脑-躯体”系统,已在收纳整理、柔性物体操作等场景通过上千次测试,性能超越业界主流模型π0。
团队表示,GR-3的研发攻克了抽象指令理解、环境适应和长程任务三大技术瓶颈。未来将通过扩大模型规模、引入强化学习持续优化,推动通用机器人技术在家庭服务、工业制造等领域的落地应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。