MiniMax发布新一代语音模型Speech 2.6:端到端延迟低于250毫秒,集成Fluent LoRA技术 MiniMax发布新一代语音模型Speech 2.6,端到端延迟低于250毫秒,集成Fluent LoRA技术提升语音自然度与个性化。了解其低延迟优势、复杂文本解析能力及在智能客服、虚拟主播等领域的应... AI产品动态# AI模型# FluentLoRA# MiniMax 3个月前
YouTube推出AI音乐主持人功能:基于Gemini大模型打造个性化音乐体验 深度解析YouTube最新推出的AI音乐主持人功能:基于Google Gemini大模型和语音合成技术,为Premium用户提供个性化音乐解说服务,对比Spotify AI DJ的差异化优势,展望音乐... AI新闻资讯# AI音乐主持人# GoogleGemini# YouTube 4个月前
Cartesia完成1亿美元融资推出Sonic-3语音模型,SSM架构突破Transformer限制 美国AI语音技术公司Cartesia完成1亿美元融资,正式推出第三代语音模型Sonic-3。采用创新SSM架构突破Transformer限制,实现接近人类水平的英文语音合成和2秒内中文响应速度,已获S... AI产品动态# AI语音技术# Cartesia# Sonic-3 3个月前
微软Copilot Audio Expressions发布:AI语音生成工具实现多角色情感叙事 微软Copilot Audio Expressions基于MAI-Voice-1模型,提供Emotive情感表达与Story多角色故事创作模式,支持90秒专业级音频生成,无需注册即可下载MP3,推动A... AI产品动态# AI工具# AI语音生成# CopilotAudioExpressions 5个月前
法国Kyutai实验室开源多语言语音合成模型TTS,实现低延迟实时语音交互 法国Kyutai实验室发布开源语音合成模型Kyutai TTS,支持12种语言200毫秒低延迟生成,创新融合情感语音建模与边缘计算,MOS评分4.2分。适用于智能客服、游戏陪玩等场景,GitHub已开... AI产品动态# AI# KyutaiTTS# 多语言处理 7个月前
阿里发布Qwen3-TTS语音模型升级版:音色克隆3秒完成,支持10种语言与动物声纹拟人化 阿里巴巴发布Qwen3-TTS-VD/VC语音模型升级版,实现3秒极速音色克隆、支持10种语言及动物声纹拟人化,在WER指标上超越GPT-4o等国际模型。集成49种音色与8种方言,提供200毫秒低延迟... AI产品动态# AI应用# AI语音技术# Qwen3-TTS 1个月前
阿里巴巴开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型,语音技术实现音色克隆与轻量化识别突破 阿里巴巴通义大模型团队开源Fun-CosyVoice3-0.5B与Fun-ASR-Nano模型,实现3秒音色克隆、多语言情感控制及轻量化高精度识别,降低延迟50%,支持实时场景与创意产业应用,加速语音... AI产品动态# AI开源# Fun-ASR-Nano# Fun-CosyVoice 2个月前
豆包语音推出AI多人有声剧自动化方案,文本到成品全流程AI生产 豆包语音团队推出AI多人有声剧全流程自动化方案,通过多角色TTS演播系统和AI后期链路,实现从文本到成品的智能生产,制作周期缩短90%,成本降低70%,首批作品已在番茄小说APP上线。 AI产品动态# AI技术# AI有声剧# TTS技术 3个月前
通义大模型开源语音AI双升级:Fun-CosyVoice3实现3秒音色克隆,Fun-ASR嘈杂环境识别率达93% 通义大模型团队开源语音AI双模型Fun-CosyVoice3与Fun-ASR完成重大升级。Fun-CosyVoice3实现首包延迟降低50%、中英混说错误率下降56.4%,支持多语言方言与情感控制,其... AI产品动态# AI工具# Fun-ASR# Fun-CosyVoice3 2个月前