昆仑万维发布Mureka V7.5音频生成模型与MoE-TTS语音合成框架，推动AI音乐与语音合成技术革新

AI产品动态10个月前发布 AI视野

昆仑万维于8月15日正式上线音频生成模型Mureka V7.5，并同步推出基于混合专家（MoE）架构的语音合成框架MoE-TTS，标志着其SkyWork AI技术发布周的收官。此次发布的技术成果聚焦中文音乐创作与语音合成的核心突破，展现了多模态AI领域的前沿进展。

Mureka V7.5：中文音乐生成的深度优化
新版本在中文歌曲演绎上实现多维提升，包括音色、演奏技法、咬字及情感表现。其核心技术突破源于对中文音乐文化特性的深度解析：模型通过积累传统民歌、戏曲至流行音乐的数据，能够精准捕捉中文特有的韵律与艺术神韵。为增强人声真实性，团队优化了自动语音识别（ASR）技术，使其可分析演唱中的气息、情感波动等微观细节，智能划分乐句结构并模拟真人换气停顿，显著降低机械感。主观评测显示，生成作品的指令遵循度与质量均领先同类模型。

MoE-TTS：开放描述的语音合成革新
语音团队推出的MoE-TTS框架首次将混合专家架构应用于角色描述合成场景。该技术通过解耦文本与语音模态，分别配置专用专家模块，并引入模态路由机制，实现“知识零损失”的跨域泛化。用户仅需自然语言描述（如“清澈的少年音带磁性尾韵”）即可精准控制声学特征，其风格贴合度在开源数据训练条件下已超越部分闭源产品。该框架计划集成至Mureka-Speech平台，为数字人、虚拟助手等场景提供定制化支持。

技术发布周背景与行业影响
此次发布是昆仑万维8月11日启动的“SkyWork AI技术发布周”的压轴环节。此前五日，公司已陆续推出覆盖游戏、3D生成、多模态研究等领域的五款模型。Mureka V7.5与MoE-TTS的协同亮相，不仅强化了昆仑万维在AI创作工具链的布局，也为学术界提供了可复用的技术路径，有望加速语音合成与音乐生成领域的范式升级。

文章版权归作者所有，未经允许请勿转载。

昆仑万维发布Mureka V7.5音频生成模型与MoE-TTS语音合成框架，推动AI音乐与语音合成技术革新

腾讯混元开源3D世界模型1.0-Lite版：显存需求降低35%，适配消费级显卡

快手可灵2.1模型推出首尾帧功能，AI视频生成技术再升级

相关文章

马斯克xAI再推AI男友Valentine，加速布局情感陪伴赛道

阿里云通义千问发布Qwen-MT机器翻译模型，支持92种语言高质量互译

阿里通义开源Qwen-Image-2512图像生成模型，突破真实感与文字渲染技术瓶颈

AI助手“灵光”推出科普动画生成功能，九大学科知识可视化教学

最新资讯

热门AI工具

热门资讯