科大讯飞声音复刻技术重大升级：10秒音频即可生成高还原音色

AI产品动态11个月前发布 AI视野

近日，科大讯飞宣布其声音复刻技术实现重大升级，用户仅需提供10秒音频即可生成高度还原的音色，该技术已正式上线开放平台。此次升级标志着AI语音交互领域取得突破性进展。

技术层面，新版声音复刻采用”三阶段层次化语音建模框架”，能精准捕捉发音规律和韵律特征。测试显示，生成的声音在情感表现力与声线还原度上达到人耳难辨的水平。目前用户通过讯飞星火App选择性别并朗读一句话，即可快速创建个性化数字发音人，该功能支持包括方言、多语种在内的14种预设声线。

值得注意的是，这项技术已在影视配音领域展现应用潜力。例如通过复刻《长安的荔枝》男主角李善德的声线，成功模拟其推荐剧集的语音片段，连愤怒情绪下的声调变化都能准确再现。开发者现可通过讯飞开放平台API接入该技术，为智能驾驶、教育等场景提供更自然的语音交互方案。

企业公开信息显示，相关技术已获”语音合成方法及相关装置”发明专利授权，其核心在于通过特征预测模型提升合成语音的自然度。作为两次获得中国专利金奖的AI语音企业，科大讯飞2024年研发投入达38.92亿元，持续加码语音技术创新。

据悉，该技术升级与即将发布的讯飞星火V4.0形成协同效应，其语音大模型在24个语种的平均识别率已达90%，显著超越行业标杆产品。市场分析认为，这项突破将加速虚拟员工、智能客服等应用场景的落地进程。

AI产品动态 # AI语音 # 人工智能 # 声音复刻 # 科大讯飞 # 语音合成

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

百度健康发布行业首款可控AI创作平台Dr.Flow，医疗内容创作效率提升60倍

百度健康发布行业首款可控AI创作平台Dr.Flow，医疗内容创作效率提升60倍

AI产品动态 # AI创作平台 # AI技术 # Dr.Flow

5个月前

谷歌AI试衣功能上线：一张自拍生成数字模特，解决网购试衣难题

谷歌AI试衣功能上线：一张自拍生成数字模特，解决网购试衣难题

AI产品动态 # AI试衣 # Gemini模型 # NanoBanana

6个月前

国家知识产权局发布18项“人工智能+”知识产权公共服务应用场景建设名单，覆盖全国12省份

国家知识产权局发布18项“人工智能+”知识产权公共服务应用场景建设名单，覆盖全国12省份

AI新闻资讯 # AI技术 # 人工智能 # 公共服务

5个月前

马斯克旗下xAI推出儿童专属AI应用“Baby Grok”，聚焦安全与教育

马斯克旗下xAI推出儿童专属AI应用“Baby Grok”，聚焦安全与教育

AI产品动态 # AI应用 # xAI # 人工智能

10个月前