面壁智能发布VoxCPM 0.5B语音生成模型：支持中英双语与实时流式输出，开源可商用

AI产品动态10个月前发布 AI视野

9月18日，面壁智能正式发布0.5B参数规模的语音生成基座模型VoxCPM，该模型由面壁智能与清华大学深圳国际研究生院人机语音交互实验室（THUHCSI）联合研发。作为一款端到端的扩散自回归语音生成模型，VoxCPM在合成语音的自然度、音色相似度及韵律表现力等关键指标上均达到业界SOTA水平，目前已在GitHub、Hugging Face等平台开源。

技术层面，VoxCPM采用融合层次化语言建模与局部扩散生成的创新方案，区别于主流离散声学词元处理方法，能够直接从输入文本合成高质量连续语音表征，并支持流式实时音频输出。在Seed-TTS-EVAL等权威评测中，其词错率在正常样本和困难样本中均表现优异，Zero-shot音色克隆任务中的相似度指标更是达到顶尖水平。实测显示，单张NVIDIA RTX 4090显卡上可实现RTF≈0.17的高效推理速度。

功能特性方面，VoxCPM展现出对文本内容的深度理解能力，能自主适配声音、腔调及韵律风格，支持中英双语、公式符号音频输出及自定义发音修正。尤其值得注意的是，该模型仅需极少样本即可实现高精度声线复刻，生成的语音在情绪表达、停顿节奏等细节上被评价为”与真人无异”。

目前，开发者可通过GitHub、Hugging Face等平台获取开源模型，线上体验平台也已同步开放。这一技术突破为智能语音交互、数字内容创作等领域提供了新的高性能解决方案，标志着国产语音生成技术进入新阶段。

文章版权归作者所有，未经允许请勿转载。

面壁智能发布VoxCPM 0.5B语音生成模型：支持中英双语与实时流式输出，开源可商用

Meta重磅升级Horizon Worlds！AI工具让普通人也能打造影院级元宇宙

全球首个AI原生开源机器人系统OM1 Beta发布，推动跨平台协同开发新纪元

相关文章

智元机器人发布灵犀X2-N：全球首款毫秒级轮足双形态商用机器人

马斯克预言20年内实现数字永生：Neuralink与Optimus技术融合重塑人类未来

爱诗科技发布PixVerse V5大模型：AI视频生成进入秒级响应时代

字节跳动Trae AI编程助手2.0发布：SOLO模式实现全流程自动化开发

最新资讯

热门AI工具

热门资讯