面壁智能发布VoxCPM 0.5B语音生成模型:支持中英双语与实时流式输出,开源可商用

AI产品动态12小时前发布 AI视野

9月18日,面壁智能正式发布0.5B参数规模的语音生成基座模型VoxCPM,该模型由面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)联合研发。作为一款端到端的扩散自回归语音生成模型,VoxCPM在合成语音的自然度、音色相似度及韵律表现力等关键指标上均达到业界SOTA水平,目前已在GitHub、Hugging Face等平台开源。

技术层面,VoxCPM采用融合层次化语言建模与局部扩散生成的创新方案,区别于主流离散声学词元处理方法,能够直接从输入文本合成高质量连续语音表征,并支持流式实时音频输出。在Seed-TTS-EVAL等权威评测中,其词错率在正常样本和困难样本中均表现优异,Zero-shot音色克隆任务中的相似度指标更是达到顶尖水平。实测显示,单张NVIDIA RTX 4090显卡上可实现RTF≈0.17的高效推理速度。

功能特性方面,VoxCPM展现出对文本内容的深度理解能力,能自主适配声音、腔调及韵律风格,支持中英双语、公式符号音频输出及自定义发音修正。尤其值得注意的是,该模型仅需极少样本即可实现高精度声线复刻,生成的语音在情绪表达、停顿节奏等细节上被评价为”与真人无异”。

目前,开发者可通过GitHub、Hugging Face等平台获取开源模型,线上体验平台也已同步开放。这一技术突破为智能语音交互、数字内容创作等领域提供了新的高性能解决方案,标志着国产语音生成技术进入新阶段。

© 版权声明

相关文章