阿里通义开源Fun-Audio-Chat 8B端到端语音模型,实现情绪感知与低延迟交互

阿里巴巴集团旗下通义大模型团队于2025年12月23日正式开源新一代端到端语音交互模型Fun-Audio-Chat 8B,该技术突破传统语音交互的模块化串联架构,实现从语音输入到输出的直接生成,并具备情绪感知与自动化任务执行能力。模型已在GitHub、HuggingFace和ModelScope等平台开放权重、推理代码及Function Call接入示例。

技术架构创新
Fun-Audio-Chat采用端到端序列到序列(S2S)设计,摒弃传统ASR(语音识别)+LLM(大语言模型)+TTS(语音合成)的多模块拼接流程,通过双分辨率处理机制优化性能:共享大模型层以5Hz帧率解析语义,语音生成模块则以25Hz帧率输出高保真音频,使GPU计算开销降低50%。其训练数据覆盖百万小时多任务场景,包括情感识别、工具调用等,显著提升对话的自然度与场景适应性。

性能表现与行业对比
在OpenAudioBench、MMAU、Speech-ACEBench和VStyle等权威评测中,该模型均位列同尺寸(8B参数)榜首,综合表现超越GLM4-Voice、Kimi-Audio等竞品。核心优势体现在低延迟交互(端到端延迟较传统方案缩减60%)与情绪理解能力——即使未明确提及情绪状态,模型仍可通过分析语气、语速等副语言特征生成共情式回应。

应用场景与开源生态
该技术适用于智能家居、车载系统及客服场景,用户可通过自然语音指令直接触发函数调用(如查询天气、控制设备)。开源版本支持开发者在魔搭社区、HuggingFace等平台部署,Demo页面已开放实时体验。阿里巴巴强调,此次开源旨在推动语音交互技术向“类人际对话”体验进化,未来将扩展多语言与方言支持能力。

© 版权声明

相关文章