阿里通义开源Fun-Audio-Chat 8B端到端语音模型，实现情绪感知与低延迟交互

AI产品动态5个月前发布 AI视野

阿里巴巴集团旗下通义大模型团队于2025年12月23日正式开源新一代端到端语音交互模型Fun-Audio-Chat 8B，该技术突破传统语音交互的模块化串联架构，实现从语音输入到输出的直接生成，并具备情绪感知与自动化任务执行能力。模型已在GitHub、HuggingFace和ModelScope等平台开放权重、推理代码及Function Call接入示例。

技术架构创新
Fun-Audio-Chat采用端到端序列到序列（S2S）设计，摒弃传统ASR（语音识别）+LLM（大语言模型）+TTS（语音合成）的多模块拼接流程，通过双分辨率处理机制优化性能：共享大模型层以5Hz帧率解析语义，语音生成模块则以25Hz帧率输出高保真音频，使GPU计算开销降低50%。其训练数据覆盖百万小时多任务场景，包括情感识别、工具调用等，显著提升对话的自然度与场景适应性。

性能表现与行业对比
在OpenAudioBench、MMAU、Speech-ACEBench和VStyle等权威评测中，该模型均位列同尺寸（8B参数）榜首，综合表现超越GLM4-Voice、Kimi-Audio等竞品。核心优势体现在低延迟交互（端到端延迟较传统方案缩减60%）与情绪理解能力——即使未明确提及情绪状态，模型仍可通过分析语气、语速等副语言特征生成共情式回应。

应用场景与开源生态
该技术适用于智能家居、车载系统及客服场景，用户可通过自然语音指令直接触发函数调用（如查询天气、控制设备）。开源版本支持开发者在魔搭社区、HuggingFace等平台部署，Demo页面已开放实时体验。阿里巴巴强调，此次开源旨在推动语音交互技术向“类人际对话”体验进化，未来将扩展多语言与方言支持能力。

文章版权归作者所有，未经允许请勿转载。

阿里通义开源Fun-Audio-Chat 8B端到端语音模型，实现情绪感知与低延迟交互

ChatGPT推出年度回顾功能，开启AI助手个性化陪伴新篇章

国产突破！MiniMax开源大模型M2.1发布：多语言编程能力超越Claude，成本仅8%

相关文章

寒武纪发布NeuWare基础软件平台，实现AI模型快速迁移与全栈优化

双模态激光雷达突破：华科大联合团队实现毫米级精度与毫秒级响应

百度开源ERNIE-4.5多模态大模型：280亿参数MoE架构，单卡RTX 4090可部署

Adobe Firefly重大更新：AI视频编辑进入自然语言指令时代

最新资讯

热门AI工具

热门资讯