谷歌Gemini 2.5 TTS重大升级:情绪化语音、自适应节奏与多语言对话革新AI语音合成 谷歌Gemini 2.5 Flash与Pro文本转语音模型2025年重大升级,实现情绪级表达、上下文自适应节奏及24种语言多角色对话支持,提升语音自然度,适用于有声读物、游戏NPC配音等场景,推动AI... AI产品动态# AI新闻# AI语音合成# TTS升级 3天前
阿里通义实验室发布Qwen3-TTS:49种高保真音色+多语言方言,语音合成自然度行业领先 阿里巴巴通义实验室发布Qwen3-TTS文本转语音模型,具备49种高保真音色、多语言方言支持及行业领先的语音自然度(MOS 4.53分)。模型覆盖中英文等10种语言及9种方言,适用于教育、商业等场景... AI产品动态# AI语音合成# Qwen3-TTS# TTS模型 6天前
谷歌推出StreetReaderAI原型,用AI语音导航助力视障人士独立出行 谷歌推出StreetReaderAI原型,基于计算机视觉和语音技术,实时识别街景环境并为视障人士提供语音导航。了解这一AI无障碍工具如何通过道路识别、建筑物描述等功能提升视障群体独立出行能力,以及谷歌... AI产品动态# StreetReaderAI# 人工智能# 无障碍技术 1个月前
AI语音克隆实现以假乱真:研究证实合成语音与真人录音难以区分 伦敦大学研究证实:最新AI语音合成技术已达到与真人录音难以区分的水平。本文深度解析语音克隆的技术突破、商业应用前景及面临的伦理安全挑战,为关注人工智能发展的读者提供专业见解。 AI新闻资讯# AI语音合成# 人工智能伦理# 人机交互 3个月前
小米开源语音大模型Xiaomi-MiMo-Audio:7B级别性能全球领先,超越谷歌Gemini与OpenAI GPT-4o 小米发布全球领先的开源语音大模型Xiaomi-MiMo-Audio,在MMAU和Big Bench音频测试中超越谷歌Gemini与OpenAI GPT-4o。了解其亿小时训练数据、少样本学习能力及在智... AI产品动态# AI开源# 人机交互# 多模态AI 3个月前
AI语音输入平台Willow Voice获420万美元融资,加速构建通用语音操作系统 人工智能语音输入平台Willow Voice完成420万美元天使轮融资,致力于优化语音输入技术并构建跨应用操作系统。其高精度识别和隐私保护特性已获GitHub等企业采用,工作效率提升高达4倍。 AI新闻资讯# AI语音输入# WillowVoice# YCombinator 5个月前
B站发布IndexTTS2语音合成模型:精准控时与情感保留技术实现重大突破 哔哩哔哩发布新一代语音合成模型IndexTTS2,突破精准控时与情感保留技术瓶颈,支持中英文双语生成。本文深度解析其混合架构设计、情感解耦技术及多模态性能表现,探讨在虚拟偶像、影视配音等领域的应用前景... AI产品动态# AI语音合成# B站# IndexTTS2 5个月前