Meta发布SAM 3模型:实现自然语言驱动的精准图像分割,性能提升一倍

Meta公司于2025年11月20日正式发布第三代“分割一切”模型Segment Anything Models(SAM 3),标志着计算机视觉领域的技术范式转移。该模型通过重构核心任务定义,从“可提示分割”升级为“可提示概念分割”(Promptable Concept Segmentation),首次实现自然语言描述与视觉元素的动态关联,彻底突破传统模型依赖固定标签集的局限。用户仅需输入如“条纹红色雨伞”等开放词汇提示,系统即可精准识别并分割图像或视频中所有匹配实例,甚至能处理“坐着但未拿礼物盒的人”等复杂语义场景。

性能方面,SAM 3在英伟达H200 GPU上处理含百余物体的单张图像仅需30毫秒,五目标并发视频场景下仍保持近实时处理速度。SA-Co基准测试显示,其零样本分割准确率达47.0(LVIS数据集),较前代提升一倍;用户偏好测试中以3:1优势超越当前最强基准模型OWLv2。同步开源的SAM 3D模型进一步拓展3D重建能力,支持从影像重构立体物体。

应用层面,该技术将率先整合至Facebook Marketplace的“房间预览”功能,实现家居产品的虚拟摆放可视化;Instagram视频工具Edits也将引入动态物体追踪能力。Meta同期推出Segment Anything Playground平台,允许普通用户直接体验前沿AI分割技术。业界分析指出,这种视觉-语言对齐能力的突破,为开放世界感知系统奠定了新基石,预计将加速AI在电商、影视制作乃至野生动物保护等跨领域应用。

© 版权声明

相关文章