巨人网络与清华联合发布开源方言语音合成大模型DiaMoE-TTS，突破方言AI技术壁垒

AI新闻资讯8个月前发布 AI视野

巨人网络与清华大学电子工程系SATLab联合研发的多方言语音合成大模型框架DiaMoE-TTS于2025年10月15日正式发布，其核心代码、数据集及方法论均以开源形式向全球公开。这一突破性成果旨在解决方言语音合成领域长期存在的技术壁垒，推动语言多样性的数字化保护与普惠应用。

当前通用文本转语音（TTS）技术虽已成熟，但方言合成仍面临两大挑战：工业级模型依赖非公开专有数据，且缺乏统一的多语言处理框架。DiaMoE-TTS创新性地采用国际音标（IPA）标准化体系，仅需开源方言语音识别（ASR）数据即可构建合成模型，显著降低了技术门槛。研发团队已在英语、法语等国际语言及广东话、四川话等中文方言场景完成验证，证实该框架具备跨语种扩展能力。

技术实现层面，该框架采用混合专家模型（MoE）架构，通过动态路由机制实现不同方言特征的高效提取与合成。尤为关键的是，团队引入语言学家参与的标注体系，使得模型在数据有限条件下仍能保持音素级精度。开源内容包含超过200小时的基准数据集、预训练模型权重及完整训练工具链。

业界分析指出，该技术将直接惠及游戏本地化、无障碍服务及濒危语言保护等领域。巨人网络作为主要研发方，其”技术聚焦+场景绑定”策略显现成效——通过游戏场景的强需求驱动方言合成技术落地，同时反哺更广泛的社会应用。清华大学SATLab团队强调，开源生态将加速方言合成技术的迭代，未来计划纳入更多少数民族语言及地域变体。

这一合作标志着我国在多模态AI领域取得又一重要进展，其开源模式或将成为技术普惠的新范式。据披露，已有国际语言保护组织与国内多家智能硬件厂商接洽技术合作事宜。

文章版权归作者所有，未经允许请勿转载。

巨人网络与清华联合发布开源方言语音合成大模型DiaMoE-TTS，突破方言AI技术壁垒

全球调查揭示AI矛盾心态：34%担忧发展，42%既期待又忧虑

亚马逊启动AI驱动组织变革：人力资源部门裁员15% 加码千亿美元AI投资

相关文章

OpenAI GPT-5研发困境：团队动荡、数据枯竭与资本信心并存

腾讯混元3D大模型推出国际站服务，加速全球化布局

Anthropic与Andon Labs合作实验：AI自主经营零售店表现如何？

OpenAI估值冲刺5000亿美元：GPT-5革新在即，股权出售锁定核心人才

最新资讯

热门AI工具

热门资讯