擎朗智能于9月24日正式推出自研视觉语言动作(VLA)模型KOM2.0(KEENON Operator Model 2.0),标志着全球服务机器人行业首个针对垂直领域的多模态大模型落地。该模型采用快-慢双系统架构:慢系统(K-Mind)基于VLM多模态大模型,通过自建岗位服务场景数据集K-Infinity实现环境感知与任务规划;快系统(K-Act)则依托动作专家模型,利用十万级真机数据训练精细动作生成能力。CTO唐旋来透露,模型创新性引入时空自适应注意力机制与分层决策推理模块,可解析复杂场景中的时空关联,其强化学习框架支持部署后持续进化。
技术突破显著提升泛化能力,例如将”拿杯子”等基础动作拆解为通用技能,跨场景应用于爆米花制作、饮品配送等任务,减少30%场景定制需求。目前该模型已作为底座应用于擎朗人形机器人XMAN系列,结合岗位化垂域模型KEENON ProS,实现多机协同调度等高难度场景的自主决策。公司依托日均十万台机器人的实时运行数据,使模型在餐饮、医疗等场景的误操作率降低至0.2%。
此次发布延续了擎朗在具身智能领域的布局,继8月推出双足人形机器人XMAN-F1后,进一步强化了在商用服务机器人市场的技术壁垒。据IDC数据,该公司全球出货量已超10万台,在配送细分领域市占率保持首位。分析指出,KOM2.0的商用将加速服务机器人从单一任务执行向全场景自主服务的转型,预计到2026年可降低40%的规模化部署成本。
© 版权声明
文章版权归作者所有,未经允许请勿转载。