语音合成

阿里发布Qwen3-TTS语音模型升级版：音色克隆3秒完成，支持10种语言与动物声纹拟人化

阿里巴巴发布Qwen3-TTS-VD/VC语音模型升级版，实现3秒极速音色克隆、支持10种语言及动物声纹拟人化，在WER指标上超越GPT-4o等国际模型。集成49种音色与8种方言，提供200毫秒低延迟...

5个月前

通义大模型开源语音AI双升级：Fun-CosyVoice3实现3秒音色克隆，Fun-ASR嘈杂环境识别率达93%

通义大模型团队开源语音AI双模型Fun-CosyVoice3与Fun-ASR完成重大升级。Fun-CosyVoice3实现首包延迟降低50%、中英混说错误率下降56.4%，支持多语言方言与情感控制，其...

AI产品动态 # AI工具 # Fun-ASR # Fun-CosyVoice3

5个月前

阿里巴巴开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型，语音技术实现音色克隆与轻量化识别突破

阿里巴巴通义大模型团队开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型，实现3秒音色克隆、多语言情感控制及轻量化高精度识别，降低延迟50%，支持实时场景与创意产业应用，加速语音...

AI产品动态 # AI开源 # Fun-ASR-Nano # Fun-CosyVoice

5个月前

智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

智谱科技发布开源工业级文本转语音模型GLM-TTS，实现3秒音色克隆、10万小时低数据训练需求，字错误率低至0.89%。模型已应用于教育、客服等场景，训练成本降低50%以上，助力语音合成技术普惠化。

AI产品动态 # AI技术 # GLM-TTS # 多模态大模型

6个月前

Cartesia完成1亿美元融资推出Sonic-3语音模型，SSM架构突破Transformer限制

美国AI语音技术公司Cartesia完成1亿美元融资，正式推出第三代语音模型Sonic-3。采用创新SSM架构突破Transformer限制，实现接近人类水平的英文语音合成和2秒内中文响应速度，已获S...

AI产品动态 # AI语音技术 # Cartesia # Sonic-3

7个月前

MiniMax发布新一代语音模型Speech 2.6：端到端延迟低于250毫秒，集成Fluent LoRA技术

MiniMax发布新一代语音模型Speech 2.6，端到端延迟低于250毫秒，集成Fluent LoRA技术提升语音自然度与个性化。了解其低延迟优势、复杂文本解析能力及在智能客服、虚拟主播等领域的应...

AI产品动态 # AI模型 # FluentLoRA # MiniMax

7个月前

豆包语音推出AI多人有声剧自动化方案，文本到成品全流程AI生产

豆包语音团队推出AI多人有声剧全流程自动化方案，通过多角色TTS演播系统和AI后期链路，实现从文本到成品的智能生产，制作周期缩短90%，成本降低70%，首批作品已在番茄小说APP上线。

AI产品动态 # AI技术 # AI有声剧 # TTS技术

7个月前

Hume AI发布Octave 2多语言语音模型，新增阿拉伯语等12种语言支持

Hume AI最新推出Octave 2多语言语音模型，支持12种语言包括阿拉伯语和印地语，在情感识别基础上优化韵律建模，自然度提升23%。该模型将应用于医疗问诊和跨境客服，已与多家呼叫中心运营商达成合...

AI产品动态 # AI语音模型 # HumeAI # 人工智能

8个月前

YouTube推出AI音乐主持人功能：基于Gemini大模型打造个性化音乐体验

深度解析YouTube最新推出的AI音乐主持人功能：基于Google Gemini大模型和语音合成技术，为Premium用户提供个性化音乐解说服务，对比Spotify AI DJ的差异化优势，展望音乐...

AI新闻资讯 # AI音乐主持人 # GoogleGemini # YouTube

8个月前

面壁智能发布VoxCPM 0.5B语音生成模型：支持中英双语与实时流式输出，开源可商用

面壁智能发布VoxCPM 0.5B参数语音生成基座模型，支持中英双语流式输出与高精度音色克隆，在自然度和韵律表现达SOTA水平。模型已开源，适用于智能语音交互与数字内容创作。

AI产品动态 # TTS技术 # VoxCPM # 人工智能

8个月前

阿里发布Qwen3-TTS语音模型升级版：音色克隆3秒完成，支持10种语言与动物声纹拟人化

通义大模型开源语音AI双升级：Fun-CosyVoice3实现3秒音色克隆，Fun-ASR嘈杂环境识别率达93%

阿里巴巴开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型，语音技术实现音色克隆与轻量化识别突破

智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

Cartesia完成1亿美元融资推出Sonic-3语音模型，SSM架构突破Transformer限制

MiniMax发布新一代语音模型Speech 2.6：端到端延迟低于250毫秒，集成Fluent LoRA技术

豆包语音推出AI多人有声剧自动化方案，文本到成品全流程AI生产

Hume AI发布Octave 2多语言语音模型，新增阿拉伯语等12种语言支持

YouTube推出AI音乐主持人功能：基于Gemini大模型打造个性化音乐体验

面壁智能发布VoxCPM 0.5B语音生成模型：支持中英双语与实时流式输出，开源可商用

热门AI工具

最新资讯