Hume AI发布Octave 2多语言语音模型,新增阿拉伯语等12种语言支持 Hume AI最新推出Octave 2多语言语音模型,支持12种语言包括阿拉伯语和印地语,在情感识别基础上优化韵律建模,自然度提升23%。该模型将应用于医疗问诊和跨境客服,已与多家呼叫中心运营商达成合... AI产品动态# AI语音模型# HumeAI# 人工智能 49分钟前
YouTube推出AI音乐主持人功能:基于Gemini大模型打造个性化音乐体验 深度解析YouTube最新推出的AI音乐主持人功能:基于Google Gemini大模型和语音合成技术,为Premium用户提供个性化音乐解说服务,对比Spotify AI DJ的差异化优势,展望音乐... AI新闻资讯# AI音乐主持人# GoogleGemini# YouTube 2天前
面壁智能发布VoxCPM 0.5B语音生成模型:支持中英双语与实时流式输出,开源可商用 面壁智能发布VoxCPM 0.5B参数语音生成基座模型,支持中英双语流式输出与高精度音色克隆,在自然度和韵律表现达SOTA水平。模型已开源,适用于智能语音交互与数字内容创作。 AI产品动态# TTS技术# VoxCPM# 人工智能 2周前
微软AI语音技术重大突破:MAI-Voice-1与GPT-realtime模型重塑语音交互生态 深度解析微软2025年AI语音技术突破:MAI-Voice-1模型实现高效批量音频生成,GPT-realtime支持图像交互与拟真语音,技术互补为企业节省40%语音制作成本,推动语音交互进入多模态时代... AI产品动态# AzureAI# GPT-Realtime# MAI-Voice-1 3周前
微软Copilot Audio Expressions发布:AI语音生成工具实现多角色情感叙事 微软Copilot Audio Expressions基于MAI-Voice-1模型,提供Emotive情感表达与Story多角色故事创作模式,支持90秒专业级音频生成,无需注册即可下载MP3,推动A... AI产品动态# AI工具# AI语音生成# CopilotAudioExpressions 4周前
微软开源VibeVoice-1.5B音频模型,突破90分钟长语音合成技术壁垒 微软开源VibeVoice-1.5B音频模型,突破90分钟连续语音合成技术,解决音色失真与语义连贯性问题。适用于有声书、在线教育及实时交互场景,降低制作成本,推动AI语音技术发展。 AI产品动态# AI开源# VibeVoice# 人工智能 1个月前
谷歌为Google Docs推出AI语音朗读功能,支持自定义语音风格与播放速度 谷歌正式推出Google Docs AI语音朗读功能,支持英文文档多风格语音自定义和速度调节,基于Gemini模型提升办公效率,适合企业及视障用户使用。 AI产品动态# AI语音朗读# Gemini模型# GoogleDocs 1个月前
昆仑万维发布Mureka V7.5音频生成模型与MoE-TTS语音合成框架,推动AI音乐与语音合成技术革新 昆仑万维最新发布的Mureka V7.5音频生成模型和MoE-TTS语音合成框架,通过深度优化中文音乐生成和引入混合专家架构,实现了AI在音乐创作与语音合成领域的技术突破。了解这些前沿技术如何推动多模... AI产品动态# AI技术# MoE-TTS# Mureka 2个月前
法国Kyutai实验室开源多语言语音合成模型TTS,实现低延迟实时语音交互 法国Kyutai实验室发布开源语音合成模型Kyutai TTS,支持12种语言200毫秒低延迟生成,创新融合情感语音建模与边缘计算,MOS评分4.2分。适用于智能客服、游戏陪玩等场景,GitHub已开... AI产品动态# AI# KyutaiTTS# 多语言处理 3个月前
科大讯飞声音复刻技术重大升级:10秒音频即可生成高还原音色 科大讯飞最新声音复刻技术仅需10秒音频即可生成高还原音色,支持多语种和方言,已获发明专利。了解这项AI语音技术的突破性进展及应用场景。 AI产品动态# AI语音# 人工智能# 声音复刻 3个月前