昆仑万维发布Mureka V7.5音频生成模型与MoE-TTS语音合成框架,推动AI音乐与语音合成技术革新 昆仑万维最新发布的Mureka V7.5音频生成模型和MoE-TTS语音合成框架,通过深度优化中文音乐生成和引入混合专家架构,实现了AI在音乐创作与语音合成领域的技术突破。了解这些前沿技术如何推动多模... AI产品动态# AI技术# MoE-TTS# Mureka 6个月前
MiniMax发布Voice Design音色设计功能,AI语音合成进入个性化时代 稀宇科技MiniMax发布Voice Design音色设计功能,通过自然语言交互实现音色全维度定制,支持5000字符输入和12项参数微调,能生成世界上不存在的音色,标志着AI语音合成进入个性化时代。 AI产品动态# AI语音# MiniMax# VoiceDesign 7个月前
智谱科技发布工业级文本转语音模型GLM-TTS:3秒音色克隆、10万小时低数据训练,开源语音合成新标杆 智谱科技发布开源工业级文本转语音模型GLM-TTS,实现3秒音色克隆、10万小时低数据训练需求,字错误率低至0.89%。模型已应用于教育、客服等场景,训练成本降低50%以上,助力语音合成技术普惠化。 AI产品动态# AI技术# GLM-TTS# 多模态大模型 2个月前
豆包电脑版上线AI播客功能 语音拟真度获用户高度评价 豆包电脑版及网页版全量上线“AI播客”功能,用户可通过上传PDF或网页链接一键生成双人对话式播客内容。该功能基于豆包大模型团队研发的语音播客模型,其语音效果因高度拟人化、自然停顿及语气词模拟等特点引发... AI产品动态# AI应用# AI播客# 科技新闻 8个月前
微软AI语音技术重大突破:MAI-Voice-1与GPT-realtime模型重塑语音交互生态 深度解析微软2025年AI语音技术突破:MAI-Voice-1模型实现高效批量音频生成,GPT-realtime支持图像交互与拟真语音,技术互补为企业节省40%语音制作成本,推动语音交互进入多模态时代... AI产品动态# AzureAI# GPT-Realtime# MAI-Voice-1 5个月前
微软开源VibeVoice-1.5B音频模型,突破90分钟长语音合成技术壁垒 微软开源VibeVoice-1.5B音频模型,突破90分钟连续语音合成技术,解决音色失真与语义连贯性问题。适用于有声书、在线教育及实时交互场景,降低制作成本,推动AI语音技术发展。 AI产品动态# AI开源# VibeVoice# 人工智能 5个月前
谷歌为Google Docs推出AI语音朗读功能,支持自定义语音风格与播放速度 谷歌正式推出Google Docs AI语音朗读功能,支持英文文档多风格语音自定义和速度调节,基于Gemini模型提升办公效率,适合企业及视障用户使用。 AI产品动态# AI语音朗读# Gemini模型# GoogleDocs 6个月前
科大讯飞声音复刻技术重大升级:10秒音频即可生成高还原音色 科大讯飞最新声音复刻技术仅需10秒音频即可生成高还原音色,支持多语种和方言,已获发明专利。了解这项AI语音技术的突破性进展及应用场景。 AI产品动态# AI语音# 人工智能# 声音复刻 7个月前
面壁智能发布VoxCPM 0.5B语音生成模型:支持中英双语与实时流式输出,开源可商用 面壁智能发布VoxCPM 0.5B参数语音生成基座模型,支持中英双语流式输出与高精度音色克隆,在自然度和韵律表现达SOTA水平。模型已开源,适用于智能语音交互与数字内容创作。 AI产品动态# TTS技术# VoxCPM# 人工智能 5个月前
Hume AI发布Octave 2多语言语音模型,新增阿拉伯语等12种语言支持 Hume AI最新推出Octave 2多语言语音模型,支持12种语言包括阿拉伯语和印地语,在情感识别基础上优化韵律建模,自然度提升23%。该模型将应用于医疗问诊和跨境客服,已与多家呼叫中心运营商达成合... AI产品动态# AI语音模型# HumeAI# 人工智能 4个月前