巨人网络与清华联合发布开源方言语音合成大模型DiaMoE-TTS,突破方言AI技术壁垒

巨人网络清华大学电子工程系SATLab联合研发的多方言语音合成大模型框架DiaMoE-TTS于2025年10月15日正式发布,其核心代码、数据集及方法论均以开源形式向全球公开。这一突破性成果旨在解决方言语音合成领域长期存在的技术壁垒,推动语言多样性的数字化保护与普惠应用。

当前通用文本转语音(TTS)技术虽已成熟,但方言合成仍面临两大挑战:工业级模型依赖非公开专有数据,且缺乏统一的多语言处理框架。DiaMoE-TTS创新性地采用国际音标(IPA)标准化体系,仅需开源方言语音识别(ASR)数据即可构建合成模型,显著降低了技术门槛。研发团队已在英语、法语等国际语言及广东话、四川话等中文方言场景完成验证,证实该框架具备跨语种扩展能力。

技术实现层面,该框架采用混合专家模型(MoE)架构,通过动态路由机制实现不同方言特征的高效提取与合成。尤为关键的是,团队引入语言学家参与的标注体系,使得模型在数据有限条件下仍能保持音素级精度。开源内容包含超过200小时的基准数据集、预训练模型权重及完整训练工具链。

业界分析指出,该技术将直接惠及游戏本地化、无障碍服务及濒危语言保护等领域。巨人网络作为主要研发方,其”技术聚焦+场景绑定”策略显现成效——通过游戏场景的强需求驱动方言合成技术落地,同时反哺更广泛的社会应用。清华大学SATLab团队强调,开源生态将加速方言合成技术的迭代,未来计划纳入更多少数民族语言及地域变体。

这一合作标志着我国在多模态AI领域取得又一重要进展,其开源模式或将成为技术普惠的新范式。据披露,已有国际语言保护组织与国内多家智能硬件厂商接洽技术合作事宜。

© 版权声明

相关文章