10月30日凌晨,MiniMax稀宇科技通过官方微博正式发布新一代语音模型MiniMax Speech 2.6。该模型以端到端延迟低于250毫秒的技术指标引发行业关注,同时搭载的Fluent LoRA技术进一步提升了语音合成的自然度与个性化能力。
技术性能方面,Speech 2.6通过全流程深度优化实现音频生成延迟突破250毫秒门槛,这一指标已达到当前实时语音交互场景的领先水平。低延迟特性使其在虚拟助手、在线客服等需要即时反馈的应用中显著提升交互流畅性,用户几乎感受不到与传统真人对话的响应差异。
模型创新点在于集成Fluent LoRA技术模块,支持用户在保留目标音色特征的同时,生成与文本语义高度匹配的流利语音输出。该技术解决了传统语音合成中音色复刻与语义连贯性难以兼顾的痛点,为有声读物、虚拟主播等场景提供更自然的解决方案。
此外,新版本强化了对复杂非标准文本的智能解析能力,可自动识别并准确朗读多语言环境下的网址、金融数据、联系方式等专业格式内容。例如模型能直接将”$1,234.56”转换为完整金额读音,或正确处理含特殊符号的邮箱地址发音,有效降低传统TTS系统所需的文本预处理成本。
行业分析指出,Speech 2.6的发布标志着语音合成技术向实时化、个性化方向迈进关键一步。其低延迟与高自然度的结合,可能重塑智能客服、实时翻译等领域的用户体验标准。目前MiniMax尚未披露该模型的具体商用计划及API开放时间。
© 版权声明
文章版权归作者所有,未经允许请勿转载。