Meta发布SAM 3模型：实现自然语言驱动的精准图像分割，性能提升一倍

AI产品动态2个月前发布 AI视野

Meta公司于2025年11月20日正式发布第三代“分割一切”模型Segment Anything Models（SAM 3），标志着计算机视觉领域的技术范式转移。该模型通过重构核心任务定义，从“可提示分割”升级为“可提示概念分割”（Promptable Concept Segmentation），首次实现自然语言描述与视觉元素的动态关联，彻底突破传统模型依赖固定标签集的局限。用户仅需输入如“条纹红色雨伞”等开放词汇提示，系统即可精准识别并分割图像或视频中所有匹配实例，甚至能处理“坐着但未拿礼物盒的人”等复杂语义场景。

性能方面，SAM 3在英伟达H200 GPU上处理含百余物体的单张图像仅需30毫秒，五目标并发视频场景下仍保持近实时处理速度。SA-Co基准测试显示，其零样本分割准确率达47.0（LVIS数据集），较前代提升一倍；用户偏好测试中以3:1优势超越当前最强基准模型OWLv2。同步开源的SAM 3D模型进一步拓展3D重建能力，支持从影像重构立体物体。

应用层面，该技术将率先整合至Facebook Marketplace的“房间预览”功能，实现家居产品的虚拟摆放可视化；Instagram视频工具Edits也将引入动态物体追踪能力。Meta同期推出Segment Anything Playground平台，允许普通用户直接体验前沿AI分割技术。业界分析指出，这种视觉-语言对齐能力的突破，为开放世界感知系统奠定了新基石，预计将加速AI在电商、影视制作乃至野生动物保护等跨领域应用。

文章版权归作者所有，未经允许请勿转载。

Meta发布SAM 3模型：实现自然语言驱动的精准图像分割，性能提升一倍

阿里千问APP上线两天冲入App Store前三，AI生活入口战略初显成效

Windows 11深度整合AI功能：任务栏新增Copilot入口，迈向智能体操作系统时代

相关文章

OpenAI紧急修复ChatGPT高危隐私漏洞，深度研究功能曾致用户Gmail数据泄露

马斯克xAI创纪录部署20万块H100 GPU，构建全球顶级AI算力集群

OpenAI发布ChatGPT Agent：AI技术迈向自主代理新时代

阿里巴巴开源多模态智能体WebWatcher，性能超越GPT-4o

最新资讯

热门AI工具

热门资讯