在音频技术领域,清华大学与生数科技(Shengshu AI)联合发布的两项创新成果——轻量化语音波形超分模型Bridge-SR和多功能超分框架AudioLBM,标志着音频超分辨率(Audio SR)技术迈入新阶段。该研究通过从低采样率音频恢复高采样率版本,显著提升了语音清晰度、音乐细节及沉浸式体验,为老旧录音修复、语音通信增强及音乐制作等领域提供了突破性解决方案。
当前学术界音频超分模型普遍受限于48kHz采样率,而OpenAI近期推出的Sora 2虽能生成96kHz音频,仍无法覆盖更高采样率需求。针对这一技术瓶颈,研究团队提出AudioLBM框架,首次实现从“波形域生成”到“隐空间建模”的范式转变。该模型在波形连续隐空间中构建了低分辨率到高分辨率的隐变量桥接生成过程,支持语音、音效及音乐全类型音频信号的超分处理,最高可输出192kHz母带级音质。
技术层面,AudioLBM采用频率感知机制,实现任意采样率间的超分转换,并通过级联桥类模型突破采样率上限。在多域评测中,该模型在Any-to-48kHz任务中刷新了SOTA表现,对数谱距离(LSD)指标显著下降,同时在96kHz与192kHz任务中保持稳定性能。这一进展意味着用户未来可通过普通设备获得接近专业录音棚的音质体验。
相关成果已连续发表于ICASSP 2025和NeurIPS 2025两大顶级会议,为高保真音频生成树立了新的技术标杆。
© 版权声明
文章版权归作者所有,未经允许请勿转载。