北京智源人工智能研究院联合Spin Matrix与新加坡南洋理工大学,于近日正式发布全球首个原生全双工语音对话大模型RoboBrain-Audio(FLM-Audio)。该技术突破性地实现了80毫秒级”边听边说”交互能力,标志着具身智能体从传统”能听会说”向拟人化实时对话的跨越式演进。
RoboBrain-Audio采用创新的原生全双工架构,彻底改变了传统时分复用(TDM)模型存在的交互延迟与对话割裂问题。在公开演示中,该模型展现出人类对话特有的强鲁棒性:当用户连续提问并多次打断回答时,系统能立即暂停当前输出,准确解析新问题并生成连贯应答,整体响应延迟控制在人类自然对话的80-200毫秒区间。
值得注意的是,该模型仅使用100万小时训练数据(相当于行业主流数据量的1%),通过”自然独白+双训练范式”的创新方法,在保持轻量化优势的同时实现三大突破:一是对话自然度较传统模型提升47%,二是语音理解准确率达到SOTA水平,三是系统资源占用降低60%。研究团队表示,这种高效训练范式特别适合机器人、智能座舱等需要实时响应的具身场景。
目前,RoboBrain-Audio相关技术论文已在预印本平台发布,模型权重与训练代码均通过开源协议向学术界和产业界开放。该成果为构建具备自然对话能力的下一代智能体提供了关键技术支撑,其开源策略预计将加速全双工语音交互技术在服务机器人、远程医疗等领域的商业化落地进程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。