火山引擎发布豆包语音识别模型2.0:多模态视觉与多语种支持实现技术突破 火山引擎推出豆包语音识别模型2.0,实现多模态视觉识别与13种语言支持,通过PPO强化学习提升推理准确率20%,适用于跨国会议、多语言内容生产等场景,推动语音识别行业技术革新。 AI产品动态# AI突破# AI语音技术# 人工智能 2周前
阶跃星辰开源全球首个LLM架构音频编辑模型Step-Audio-EditX,语音编辑进入自然语言指令时代 阶跃星辰于2025年11月开源全球首个基于LLM架构的音频编辑模型Step-Audio-EditX,支持自然语言指令编辑,30亿参数实现高性能低门槛部署,在方言表现力和情感传递准确率方面领先行业,推动... AI产品动态# AI语音技术# Step-Audio-EditX# 大语言模型 1个月前
Cartesia完成1亿美元融资推出Sonic-3语音模型,SSM架构突破Transformer限制 美国AI语音技术公司Cartesia完成1亿美元融资,正式推出第三代语音模型Sonic-3。采用创新SSM架构突破Transformer限制,实现接近人类水平的英文语音合成和2秒内中文响应速度,已获S... AI产品动态# AI语音技术# Cartesia# Sonic-3 1个月前
Deepdub推出新一代语音AI模型Lightning2.5,实时语音处理效率提升30% Deepdub新一代语音AI模型Lightning2.5实现30%延迟降低,提升实时翻译与语音助手效率。了解AI语音技术最新进展及行业应用前景。 AI产品动态# AI语音技术# Deepdub# 人工智能创新 3个月前