语音技术

谷歌Gemini 2.5 Flash与Pro文本转语音模型2025年重大升级，实现情绪级表达、上下文自适应节奏及24种语言多角色对话支持，提升语音自然度，适用于有声读物、游戏NPC配音等场景，推动AI...

6个月前

阿里巴巴通义实验室发布Qwen3-TTS文本转语音模型，具备49种高保真音色、多语言方言支持及行业领先的语音自然度（MOS 4.53分）。模型覆盖中英文等10种语言及9种方言，适用于教育、商业等场景...

6个月前

谷歌推出StreetReaderAI原型，基于计算机视觉和语音技术，实时识别街景环境并为视障人士提供语音导航。了解这一AI无障碍工具如何通过道路识别、建筑物描述等功能提升视障群体独立出行能力，以及谷歌...

7个月前

伦敦大学研究证实：最新AI语音合成技术已达到与真人录音难以区分的水平。本文深度解析语音克隆的技术突破、商业应用前景及面临的伦理安全挑战，为关注人工智能发展的读者提供专业见解。

8个月前

小米发布全球领先的开源语音大模型Xiaomi-MiMo-Audio，在MMAU和Big Bench音频测试中超越谷歌Gemini与OpenAI GPT-4o。了解其亿小时训练数据、少样本学习能力及在智...

8个月前

人工智能语音输入平台Willow Voice完成420万美元天使轮融资，致力于优化语音输入技术并构建跨应用操作系统。其高精度识别和隐私保护特性已获GitHub等企业采用，工作效率提升高达4倍。

10个月前

哔哩哔哩发布新一代语音合成模型IndexTTS2，突破精准控时与情感保留技术瓶颈，支持中英文双语生成。本文深度解析其混合架构设计、情感解耦技术及多模态性能表现，探讨在虚拟偶像、影视配音等领域的应用前景...

11个月前