Meta开源SAM Audio音频分离模型：多模态提示技术重塑音频编辑行业

AI产品动态2个月前发布 AI视野

Meta公司于12月17日正式开源其最新研发的多模态音频分离模型SAM Audio，标志着音频处理技术领域的一次重大突破。该模型通过文本、视觉和时间段标记三种提示方式，能够从复杂音频混合中精准分离任意目标声音，大幅降低了专业音频编辑的技术门槛。

SAM Audio的核心技术依托于感知编码器视听系统（PE-AV），这一被Meta称为”技术引擎”的架构，基于今年早些时候开源的感知编码器模型构建。PE-AV在系统中承担类似人类听觉器官的功能，与作为”大脑”的SAM Audio协同工作，实现了业界领先的音频分割性能。在实际应用中，用户仅需在视频画面中点击特定乐器，或输入”去除交通噪音”等简单指令，系统即可自动完成相应音频处理。

该模型展现出多样化的应用场景：音乐制作人可单独提取乐队演奏中的吉他声轨；播客创作者能一键消除贯穿录音的宠物叫声干扰；户外视频拍摄者则可实时过滤环境噪声。Meta特别强调其首创的”时间跨度提示”功能，允许用户对整段音频中的特定声源进行批量处理。

作为Meta”分割一切”技术系列的最新成员，SAM Audio已与其前代视觉分割模型共同集成至Segment Anything Playground平台。公司同步开源了配套的SAM Audio-Bench基准测试系统和SAM Audio Judge自动评估模型，并发布两篇详细阐述技术细节的研究论文。目前，相关技术已向公众开放体验，开发者可通过Meta官方平台获取模型资源。

尽管技术前景广阔，但行业专家指出，该模型在处理高度相似声源分离时仍存在挑战，且其潜在的隐私风险需要进一步评估。Meta在声明中表示，所有使用行为需遵守相关法律法规，但未具体说明内置的安全防护机制。随着技术的开放，音频编辑领域或将迎来新一轮的变革与创新。

文章版权归作者所有，未经允许请勿转载。

Meta开源SAM Audio音频分离模型：多模态提示技术重塑音频编辑行业

Adobe Firefly重大更新：AI视频编辑进入自然语言指令时代

OpenAI撤回ChatGPT模型路由器功能，免费用户默认启用GPT-5.2 Instant以提升响应速度

相关文章

Meta与全球主流及保守派媒体达成AI数据授权协议，提升AI实时新闻处理能力

MiniMax发布新一代语音生成模型Speech 2.5，实现多语种自然表达与音色复刻技术突破

OpenAI GPT-5.2携Image-2系列图像模型即将发布：2K-4K画质、专业编辑功能，多模态能力再升级

腾讯元宝接入DeepSeek V3.1：响应速度与智能体能力全面升级

最新资讯

热门AI工具

热门资讯