全球首个原生全双工语音对话大模型RoboBrain-Audio发布，实现80毫秒级拟人实时对话

AI产品动态2个月前发布 AI视野

北京智源人工智能研究院联合Spin Matrix与新加坡南洋理工大学，于近日正式发布全球首个原生全双工语音对话大模型RoboBrain-Audio（FLM-Audio）。该技术突破性地实现了80毫秒级”边听边说”交互能力，标志着具身智能体从传统”能听会说”向拟人化实时对话的跨越式演进。

RoboBrain-Audio采用创新的原生全双工架构，彻底改变了传统时分复用（TDM）模型存在的交互延迟与对话割裂问题。在公开演示中，该模型展现出人类对话特有的强鲁棒性：当用户连续提问并多次打断回答时，系统能立即暂停当前输出，准确解析新问题并生成连贯应答，整体响应延迟控制在人类自然对话的80-200毫秒区间。

值得注意的是，该模型仅使用100万小时训练数据（相当于行业主流数据量的1%），通过”自然独白+双训练范式”的创新方法，在保持轻量化优势的同时实现三大突破：一是对话自然度较传统模型提升47%，二是语音理解准确率达到SOTA水平，三是系统资源占用降低60%。研究团队表示，这种高效训练范式特别适合机器人、智能座舱等需要实时响应的具身场景。

目前，RoboBrain-Audio相关技术论文已在预印本平台发布，模型权重与训练代码均通过开源协议向学术界和产业界开放。该成果为构建具备自然对话能力的下一代智能体提供了关键技术支撑，其开源策略预计将加速全双工语音交互技术在服务机器人、远程医疗等领域的商业化落地进程。

文章版权归作者所有，未经允许请勿转载。

全球首个原生全双工语音对话大模型RoboBrain-Audio发布，实现80毫秒级拟人实时对话

百度蒸汽机推出无限长度AI视频生成功能，突破行业时长限制

擎朗智能推出全球首个服务机器人垂直领域多模态大模型KOM2.0

相关文章

麻省理工学院研发的光学AI处理器能以光速准确地对无线信号进行分类

快手发布KAT系列Agentic Coding大模型，KAT-Coder以73.4%解决率创代码智能新纪录

北京发布AI+医药健康三年计划：个性化医疗与智能工厂成重点

全球首个通用生物医学AI智能体Biomni发布，开启AI驱动科研新纪元

最新资讯

热门AI工具

热门资讯