字节跳动发布Robix机器人大脑模型:端到端智能革新机器人技术

字节跳动Seed团队近日发布了一款名为Robix的“机器人大脑”模型,该模型通过统一架构整合了机器人的推理、任务规划与人机交互能力,标志着机器人技术从多模块拼接向端到端综合智能的范式转变。

技术架构与核心创新
Robix采用视觉-语言融合的单模型设计,作为分层机器人系统中的高层认知层,能够动态生成原子指令并处理自然语言交互。其核心创新在于三阶段训练策略:
1. 持续预训练:强化基础具身推理能力,包括三维空间理解、视觉定位和任务导向推理;
2. 有监督微调:将交互与规划建模为统一的推理-动作序列;
3. 强化学习优化:通过奖励机制提升长期任务连贯性与动作一致性。

性能表现
在基准测试中,Robix-32B版本展现出显著优势:
– 空间理解任务中,7B与32B版本在8项测试中有7项超越Qwen2.5-VL;
– 模拟真实环境交互测试(UMI设备)中,32B版本在5项任务中3项领先Gemini 2.5 Pro;
– 真实机器人评估(GR-3设备)中,平均任务进度达92.5%,较Gemini 2.5 Pro和GPT-4o分别高出4.3和28.1个百分点。

应用场景与行业影响
Robix已实现复杂场景下的灵活交互,例如:
– 烹饪时主动识别缺失食材并询问补充;
– 实时中断处理用户指令变更;
– 结合情境感知的常识推理完成多阶段任务。
其“云端大脑+本地小脑”架构支持异构机器人组队,开发者可通过标准化接口快速集成技能模块,推动群体智能落地。

团队背景
项目由字节AI实验室负责人李航博士领衔,其曾任华为诺亚方舟实验室首席科学家。尽管李航已退休,仍以顾问身份主导研发。业内分析认为,Robix的发布或将重新定义机器人模型竞争维度,从模块堆叠转向单一模型的综合能力优化。

© 版权声明

相关文章