Meta公司于12月17日正式开源其最新研发的多模态音频分离模型SAM Audio,标志着音频处理技术领域的一次重大突破。该模型通过文本、视觉和时间段标记三种提示方式,能够从复杂音频混合中精准分离任意目标声音,大幅降低了专业音频编辑的技术门槛。
SAM Audio的核心技术依托于感知编码器视听系统(PE-AV),这一被Meta称为”技术引擎”的架构,基于今年早些时候开源的感知编码器模型构建。PE-AV在系统中承担类似人类听觉器官的功能,与作为”大脑”的SAM Audio协同工作,实现了业界领先的音频分割性能。在实际应用中,用户仅需在视频画面中点击特定乐器,或输入”去除交通噪音”等简单指令,系统即可自动完成相应音频处理。
该模型展现出多样化的应用场景:音乐制作人可单独提取乐队演奏中的吉他声轨;播客创作者能一键消除贯穿录音的宠物叫声干扰;户外视频拍摄者则可实时过滤环境噪声。Meta特别强调其首创的”时间跨度提示”功能,允许用户对整段音频中的特定声源进行批量处理。
作为Meta”分割一切”技术系列的最新成员,SAM Audio已与其前代视觉分割模型共同集成至Segment Anything Playground平台。公司同步开源了配套的SAM Audio-Bench基准测试系统和SAM Audio Judge自动评估模型,并发布两篇详细阐述技术细节的研究论文。目前,相关技术已向公众开放体验,开发者可通过Meta官方平台获取模型资源。
尽管技术前景广阔,但行业专家指出,该模型在处理高度相似声源分离时仍存在挑战,且其潜在的隐私风险需要进一步评估。Meta在声明中表示,所有使用行为需遵守相关法律法规,但未具体说明内置的安全防护机制。随着技术的开放,音频编辑领域或将迎来新一轮的变革与创新。
© 版权声明
文章版权归作者所有,未经允许请勿转载。