在2025年11月6日举行的科大讯飞1024开发者节上,科大讯飞正式发布了基于星火语音大模型的“百变声音复刻”技术,并推出多模态数字人“小飞”。这一技术突破标志着语音合成领域迈入全新阶段,用户仅需提供一句录音即可实现高保真音色复刻,并通过简单指令生成任意风格的声音输出。
“百变声音复刻”技术的核心在于其极简的用户交互设计和高精度建模能力。与传统语音合成技术相比,该技术将音色采集门槛从传统数小时语料降低至单句级别,同时支持对音色、语调、情感等多维参数的精细化控制。科大讯飞表示,该技术已实现98%以上的音色相似度,在数字人交互、有声内容生产、个性化语音服务等场景具有广泛应用前景。
同步亮相的多模态数字人“小飞”整合了星火语音大模型与视觉生成技术,能够实现拟人化的实时交互。该系统支持通过自然语言指令调整数字人的表情、动作和语音风格,在客服、教育、娱乐等领域已进入商业化落地阶段。开发者节现场演示显示,“小飞”可准确识别用户情绪并作出相应反馈,对话自然度达到业界领先水平。
据披露,这项技术突破得益于科大讯飞在国产算力基础设施上的持续投入。星火语音大模型X1.5版本已构建包含968万开发者的生态体系,近一年新增企业开发者增长率达125%。公司同时宣布启动“星火点亮全球”计划,将面向国际市场开放智能体平台Astron的源代码,该平台原生支持RPA(机器人流程自动化)与AI智能体的协同应用。
行业分析指出,声音复刻技术的突破将重构数字内容生产链条。有声读物领域可实现单人多角色配音,影视后期制作可大幅缩短配音周期,而教育行业能快速生成个性化教学语音。不过专家同时提醒,该技术可能带来声音版权认证等新型法律问题,需要建立相应的技术验证机制。
科大讯飞董事长刘庆峰在发布会上强调,超拟人多模态交互将成为未来AI进入家庭的标配。目前公司已与多个行业头部企业达成战略合作,首批搭载“百变声音复刻”技术的商用产品预计将于2026年第一季度面市。
© 版权声明
文章版权归作者所有,未经允许请勿转载。