语音合成

MiniMax发布新一代语音模型Speech 2.6，端到端延迟低于250毫秒，集成Fluent LoRA技术提升语音自然度与个性化。了解其低延迟优势、复杂文本解析能力及在智能客服、虚拟主播等领域的应...

7个月前

Hume AI最新推出Octave 2多语言语音模型，支持12种语言包括阿拉伯语和印地语，在情感识别基础上优化韵律建模，自然度提升23%。该模型将应用于医疗问诊和跨境客服，已与多家呼叫中心运营商达成合...

8个月前

美国AI语音技术公司Cartesia完成1亿美元融资，正式推出第三代语音模型Sonic-3。采用创新SSM架构突破Transformer限制，实现接近人类水平的英文语音合成和2秒内中文响应速度，已获S...

7个月前

深度解析YouTube最新推出的AI音乐主持人功能：基于Google Gemini大模型和语音合成技术，为Premium用户提供个性化音乐解说服务，对比Spotify AI DJ的差异化优势，展望音乐...

8个月前

阿里巴巴通义大模型团队开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型，实现3秒音色克隆、多语言情感控制及轻量化高精度识别，降低延迟50%，支持实时场景与创意产业应用，加速语音...

5个月前

通义大模型团队开源语音AI双模型Fun-CosyVoice3与Fun-ASR完成重大升级。Fun-CosyVoice3实现首包延迟降低50%、中英混说错误率下降56.4%，支持多语言方言与情感控制，其...

5个月前

微软Copilot Audio Expressions基于MAI-Voice-1模型，提供Emotive情感表达与Story多角色故事创作模式，支持90秒专业级音频生成，无需注册即可下载MP3，推动A...

9个月前

法国Kyutai实验室发布开源语音合成模型Kyutai TTS，支持12种语言200毫秒低延迟生成，创新融合情感语音建模与边缘计算，MOS评分4.2分。适用于智能客服、游戏陪玩等场景，GitHub已开...

11个月前

豆包语音团队推出AI多人有声剧全流程自动化方案，通过多角色TTS演播系统和AI后期链路，实现从文本到成品的智能生产，制作周期缩短90%，成本降低70%，首批作品已在番茄小说APP上线。

7个月前