Stability AI近日推出专业音频生成模型Stable Audio 2.5,显著提升了AI生成音频的效率与质量。该模型采用Adversarial Relativistic-Contrastive(ARC)后训练技术,能够快速生成包含前奏、发展和结尾的多段落音乐结构,最长支持3分钟的高质量音频输出。在英伟达H100 GPU环境下,生成时间缩短至2秒以内。
新版本的核心升级包括音频修复功能,用户可上传现有音频文件,由AI自动完成续写或扩展。同时推出的移动端轻量版Stable Audio Open Small,能在7秒内生成11秒立体声音频,为移动创作提供便利。值得注意的是,该模型基于全授权数据集训练,并配备版权识别系统,确保商业使用的合规性。
面向企业用户,Stable Audio 2.5支持通过自然语言提示(如”振奋人心”)定制品牌音频内容,已与WPP等机构展开合作,助力建立品牌声学标识。技术层面,该模型能精准响应音乐风格与情感参数调整,例如根据”丰富的合成器声音”等指令优化输出。
此次更新正值欧盟AI法案推进阶段,Stability AI强调其训练数据均符合版权规范,以应对生成式AI领域日益严格的法律要求。目前该模型已开放商用,为广告、影视及音乐行业提供高效的声音解决方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。