近日,科大讯飞宣布其声音复刻技术实现重大升级,用户仅需提供10秒音频即可生成高度还原的音色,该技术已正式上线开放平台。此次升级标志着AI语音交互领域取得突破性进展。
技术层面,新版声音复刻采用”三阶段层次化语音建模框架”,能精准捕捉发音规律和韵律特征。测试显示,生成的声音在情感表现力与声线还原度上达到人耳难辨的水平。目前用户通过讯飞星火App选择性别并朗读一句话,即可快速创建个性化数字发音人,该功能支持包括方言、多语种在内的14种预设声线。
值得注意的是,这项技术已在影视配音领域展现应用潜力。例如通过复刻《长安的荔枝》男主角李善德的声线,成功模拟其推荐剧集的语音片段,连愤怒情绪下的声调变化都能准确再现。开发者现可通过讯飞开放平台API接入该技术,为智能驾驶、教育等场景提供更自然的语音交互方案。
企业公开信息显示,相关技术已获”语音合成方法及相关装置”发明专利授权,其核心在于通过特征预测模型提升合成语音的自然度。作为两次获得中国专利金奖的AI语音企业,科大讯飞2024年研发投入达38.92亿元,持续加码语音技术创新。
据悉,该技术升级与即将发布的讯飞星火V4.0形成协同效应,其语音大模型在24个语种的平均识别率已达90%,显著超越行业标杆产品。市场分析认为,这项突破将加速虚拟员工、智能客服等应用场景的落地进程。
© 版权声明
文章版权归作者所有,未经允许请勿转载。