AI语音技术

阿里巴巴发布Qwen3-TTS-VD/VC语音模型升级版，实现3秒极速音色克隆、支持10种语言及动物声纹拟人化，在WER指标上超越GPT-4o等国际模型。集成49种音色与8种方言，提供200毫秒低延迟...

5个月前

xAI于2025年12月推出Grok Voice Agent API，提供支持多语言、平均响应＜1秒的实时语音技术，兼容OpenAI规范，定价0.05美元/分钟。适用于车载导航、智能家居等场景，与GP...

5个月前

火山引擎推出豆包语音识别模型2.0，实现多模态视觉识别与13种语言支持，通过PPO强化学习提升推理准确率20%，适用于跨国会议、多语言内容生产等场景，推动语音识别行业技术革新。

6个月前

阶跃星辰于2025年11月开源全球首个基于LLM架构的音频编辑模型Step-Audio-EditX，支持自然语言指令编辑，30亿参数实现高性能低门槛部署，在方言表现力和情感传递准确率方面领先行业，推动...

7个月前

美国AI语音技术公司Cartesia完成1亿美元融资，正式推出第三代语音模型Sonic-3。采用创新SSM架构突破Transformer限制，实现接近人类水平的英文语音合成和2秒内中文响应速度，已获S...

7个月前

Deepdub新一代语音AI模型Lightning2.5实现30%延迟降低，提升实时翻译与语音助手效率。了解AI语音技术最新进展及行业应用前景。

8个月前