昆仑万维发布Mureka V7.5音频生成模型与MoE-TTS语音合成框架,推动AI音乐与语音合成技术革新

AI产品动态21小时前发布 AI视野

昆仑万维于8月15日正式上线音频生成模型Mureka V7.5,并同步推出基于混合专家(MoE)架构的语音合成框架MoE-TTS,标志着其SkyWork AI技术发布周的收官。此次发布的技术成果聚焦中文音乐创作与语音合成的核心突破,展现了多模态AI领域的前沿进展。

Mureka V7.5:中文音乐生成的深度优化
新版本在中文歌曲演绎上实现多维提升,包括音色、演奏技法、咬字及情感表现。其核心技术突破源于对中文音乐文化特性的深度解析:模型通过积累传统民歌、戏曲至流行音乐的数据,能够精准捕捉中文特有的韵律与艺术神韵。为增强人声真实性,团队优化了自动语音识别(ASR)技术,使其可分析演唱中的气息、情感波动等微观细节,智能划分乐句结构并模拟真人换气停顿,显著降低机械感。主观评测显示,生成作品的指令遵循度与质量均领先同类模型。

MoE-TTS:开放描述的语音合成革新
语音团队推出的MoE-TTS框架首次将混合专家架构应用于角色描述合成场景。该技术通过解耦文本与语音模态,分别配置专用专家模块,并引入模态路由机制,实现“知识零损失”的跨域泛化。用户仅需自然语言描述(如“清澈的少年音带磁性尾韵”)即可精准控制声学特征,其风格贴合度在开源数据训练条件下已超越部分闭源产品。该框架计划集成至Mureka-Speech平台,为数字人、虚拟助手等场景提供定制化支持。

技术发布周背景与行业影响
此次发布是昆仑万维8月11日启动的“SkyWork AI技术发布周”的压轴环节。此前五日,公司已陆续推出覆盖游戏、3D生成、多模态研究等领域的五款模型。Mureka V7.5与MoE-TTS的协同亮相,不仅强化了昆仑万维在AI创作工具链的布局,也为学术界提供了可复用的技术路径,有望加速语音合成与音乐生成领域的范式升级。

© 版权声明

相关文章