擎朗智能推出全球首个服务机器人垂直领域多模态大模型KOM2.0

AI产品动态2个月前发布 AI视野

擎朗智能于9月24日正式推出自研视觉语言动作（VLA）模型KOM2.0（KEENON Operator Model 2.0），标志着全球服务机器人行业首个针对垂直领域的多模态大模型落地。该模型采用快-慢双系统架构：慢系统（K-Mind）基于VLM多模态大模型，通过自建岗位服务场景数据集K-Infinity实现环境感知与任务规划；快系统（K-Act）则依托动作专家模型，利用十万级真机数据训练精细动作生成能力。CTO唐旋来透露，模型创新性引入时空自适应注意力机制与分层决策推理模块，可解析复杂场景中的时空关联，其强化学习框架支持部署后持续进化。

技术突破显著提升泛化能力，例如将”拿杯子”等基础动作拆解为通用技能，跨场景应用于爆米花制作、饮品配送等任务，减少30%场景定制需求。目前该模型已作为底座应用于擎朗人形机器人XMAN系列，结合岗位化垂域模型KEENON ProS，实现多机协同调度等高难度场景的自主决策。公司依托日均十万台机器人的实时运行数据，使模型在餐饮、医疗等场景的误操作率降低至0.2%。

此次发布延续了擎朗在具身智能领域的布局，继8月推出双足人形机器人XMAN-F1后，进一步强化了在商用服务机器人市场的技术壁垒。据IDC数据，该公司全球出货量已超10万台，在配送细分领域市占率保持首位。分析指出，KOM2.0的商用将加速服务机器人从单一任务执行向全场景自主服务的转型，预计到2026年可降低40%的规模化部署成本。

文章版权归作者所有，未经允许请勿转载。

擎朗智能推出全球首个服务机器人垂直领域多模态大模型KOM2.0

全球首个原生全双工语音对话大模型RoboBrain-Audio发布，实现80毫秒级拟人实时对话

英伟达开源Audio2Face面部动画模型，实时生成式AI技术助力游戏与3D开发

相关文章

OpenAI推出ChatGPT Pro云存储连接器功能，支持Google Drive等多平台集成

Meta豪掷数千亿美元加码AI竞赛，打造全球最大商用AI实验室

西安交大研发SongCi模型：AI突破法医病理诊断，准确率提升30%

OpenAI突然将GPT-6更名为GPT-6-7，背后原因引发业界猜测

最新资讯

热门AI工具

热门资讯