Cartesia完成1亿美元融资推出Sonic-3语音模型,SSM架构突破Transformer限制 美国AI语音技术公司Cartesia完成1亿美元融资,正式推出第三代语音模型Sonic-3。采用创新SSM架构突破Transformer限制,实现接近人类水平的英文语音合成和2秒内中文响应速度,已获S... AI产品动态# AI语音技术# Cartesia# Sonic-3 4周前
MiniMax发布新一代语音模型Speech 2.6:端到端延迟低于250毫秒,集成Fluent LoRA技术 MiniMax发布新一代语音模型Speech 2.6,端到端延迟低于250毫秒,集成Fluent LoRA技术提升语音自然度与个性化。了解其低延迟优势、复杂文本解析能力及在智能客服、虚拟主播等领域的应... AI产品动态# AI模型# FluentLoRA# MiniMax 1个月前
豆包语音推出AI多人有声剧自动化方案,文本到成品全流程AI生产 豆包语音团队推出AI多人有声剧全流程自动化方案,通过多角色TTS演播系统和AI后期链路,实现从文本到成品的智能生产,制作周期缩短90%,成本降低70%,首批作品已在番茄小说APP上线。 AI产品动态# AI技术# AI有声剧# TTS技术 1个月前
Hume AI发布Octave 2多语言语音模型,新增阿拉伯语等12种语言支持 Hume AI最新推出Octave 2多语言语音模型,支持12种语言包括阿拉伯语和印地语,在情感识别基础上优化韵律建模,自然度提升23%。该模型将应用于医疗问诊和跨境客服,已与多家呼叫中心运营商达成合... AI产品动态# AI语音模型# HumeAI# 人工智能 2个月前
YouTube推出AI音乐主持人功能:基于Gemini大模型打造个性化音乐体验 深度解析YouTube最新推出的AI音乐主持人功能:基于Google Gemini大模型和语音合成技术,为Premium用户提供个性化音乐解说服务,对比Spotify AI DJ的差异化优势,展望音乐... AI新闻资讯# AI音乐主持人# GoogleGemini# YouTube 2个月前
面壁智能发布VoxCPM 0.5B语音生成模型:支持中英双语与实时流式输出,开源可商用 面壁智能发布VoxCPM 0.5B参数语音生成基座模型,支持中英双语流式输出与高精度音色克隆,在自然度和韵律表现达SOTA水平。模型已开源,适用于智能语音交互与数字内容创作。 AI产品动态# TTS技术# VoxCPM# 人工智能 2个月前
微软AI语音技术重大突破:MAI-Voice-1与GPT-realtime模型重塑语音交互生态 深度解析微软2025年AI语音技术突破:MAI-Voice-1模型实现高效批量音频生成,GPT-realtime支持图像交互与拟真语音,技术互补为企业节省40%语音制作成本,推动语音交互进入多模态时代... AI产品动态# AzureAI# GPT-Realtime# MAI-Voice-1 3个月前
微软Copilot Audio Expressions发布:AI语音生成工具实现多角色情感叙事 微软Copilot Audio Expressions基于MAI-Voice-1模型,提供Emotive情感表达与Story多角色故事创作模式,支持90秒专业级音频生成,无需注册即可下载MP3,推动A... AI产品动态# AI工具# AI语音生成# CopilotAudioExpressions 3个月前
微软开源VibeVoice-1.5B音频模型,突破90分钟长语音合成技术壁垒 微软开源VibeVoice-1.5B音频模型,突破90分钟连续语音合成技术,解决音色失真与语义连贯性问题。适用于有声书、在线教育及实时交互场景,降低制作成本,推动AI语音技术发展。 AI产品动态# AI开源# VibeVoice# 人工智能 3个月前
谷歌为Google Docs推出AI语音朗读功能,支持自定义语音风格与播放速度 谷歌正式推出Google Docs AI语音朗读功能,支持英文文档多风格语音自定义和速度调节,基于Gemini模型提升办公效率,适合企业及视障用户使用。 AI产品动态# AI语音朗读# Gemini模型# GoogleDocs 3个月前