语音合成

昆仑万维发布Mureka V7.5音频生成模型与MoE-TTS语音合成框架，推动AI音乐与语音合成技术革新

昆仑万维最新发布的Mureka V7.5音频生成模型和MoE-TTS语音合成框架，通过深度优化中文音乐生成和引入混合专家架构，实现了AI在音乐创作与语音合成领域的技术突破。了解这些前沿技术如何推动多模...

10个月前

MiniMax发布Voice Design音色设计功能，AI语音合成进入个性化时代

稀宇科技MiniMax发布Voice Design音色设计功能，通过自然语言交互实现音色全维度定制，支持5000字符输入和12项参数微调，能生成世界上不存在的音色，标志着AI语音合成进入个性化时代。

AI产品动态 # AI语音 # MiniMax # VoiceDesign

11个月前

智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

智谱科技发布开源工业级文本转语音模型GLM-TTS，实现3秒音色克隆、10万小时低数据训练需求，字错误率低至0.89%。模型已应用于教育、客服等场景，训练成本降低50%以上，助力语音合成技术普惠化。

AI产品动态 # AI技术 # GLM-TTS # 多模态大模型

6个月前

微软开源VibeVoice-1.5B音频模型，突破90分钟长语音合成技术壁垒

微软开源VibeVoice-1.5B音频模型，突破90分钟连续语音合成技术，解决音色失真与语义连贯性问题。适用于有声书、在线教育及实时交互场景，降低制作成本，推动AI语音技术发展。

AI产品动态 # AI开源 # VibeVoice # 人工智能

9个月前

微软AI语音技术重大突破：MAI-Voice-1与GPT-realtime模型重塑语音交互生态

深度解析微软2025年AI语音技术突破：MAI-Voice-1模型实现高效批量音频生成，GPT-realtime支持图像交互与拟真语音，技术互补为企业节省40%语音制作成本，推动语音交互进入多模态时代...

AI产品动态 # AzureAI # GPT-Realtime # MAI-Voice-1

9个月前

豆包电脑版上线AI播客功能语音拟真度获用户高度评价

豆包电脑版及网页版全量上线“AI播客”功能，用户可通过上传PDF或网页链接一键生成双人对话式播客内容。该功能基于豆包大模型团队研发的语音播客模型，其语音效果因高度拟人化、自然停顿及语气词模拟等特点引发...

AI产品动态 # AI应用 # AI播客 # 科技新闻

12个月前

阿里发布Qwen3-TTS语音模型升级版：音色克隆3秒完成，支持10种语言与动物声纹拟人化

阿里巴巴发布Qwen3-TTS-VD/VC语音模型升级版，实现3秒极速音色克隆、支持10种语言及动物声纹拟人化，在WER指标上超越GPT-4o等国际模型。集成49种音色与8种方言，提供200毫秒低延迟...

AI产品动态 # AI应用 # AI语音技术 # Qwen3-TTS

5个月前

谷歌为Google Docs推出AI语音朗读功能，支持自定义语音风格与播放速度

谷歌正式推出Google Docs AI语音朗读功能，支持英文文档多风格语音自定义和速度调节，基于Gemini模型提升办公效率，适合企业及视障用户使用。

AI产品动态 # AI语音朗读 # Gemini模型 # GoogleDocs

9个月前

面壁智能发布VoxCPM 0.5B语音生成模型：支持中英双语与实时流式输出，开源可商用

面壁智能发布VoxCPM 0.5B参数语音生成基座模型，支持中英双语流式输出与高精度音色克隆，在自然度和韵律表现达SOTA水平。模型已开源，适用于智能语音交互与数字内容创作。

AI产品动态 # TTS技术 # VoxCPM # 人工智能

8个月前

科大讯飞声音复刻技术重大升级：10秒音频即可生成高还原音色

科大讯飞最新声音复刻技术仅需10秒音频即可生成高还原音色，支持多语种和方言，已获发明专利。了解这项AI语音技术的突破性进展及应用场景。

AI产品动态 # AI语音 # 人工智能 # 声音复刻

11个月前

昆仑万维发布Mureka V7.5音频生成模型与MoE-TTS语音合成框架，推动AI音乐与语音合成技术革新

MiniMax发布Voice Design音色设计功能，AI语音合成进入个性化时代

智谱科技发布工业级文本转语音模型GLM-TTS：3秒音色克隆、10万小时低数据训练，开源语音合成新标杆

微软开源VibeVoice-1.5B音频模型，突破90分钟长语音合成技术壁垒

微软AI语音技术重大突破：MAI-Voice-1与GPT-realtime模型重塑语音交互生态

豆包电脑版上线AI播客功能语音拟真度获用户高度评价

阿里发布Qwen3-TTS语音模型升级版：音色克隆3秒完成，支持10种语言与动物声纹拟人化

谷歌为Google Docs推出AI语音朗读功能，支持自定义语音风格与播放速度

面壁智能发布VoxCPM 0.5B语音生成模型：支持中英双语与实时流式输出，开源可商用

科大讯飞声音复刻技术重大升级：10秒音频即可生成高还原音色

热门AI工具

最新资讯