360开源FG-CLIP2视觉模型,29项测试超越谷歌Meta,实现AI细粒度识别突破

AI产品动态14小时前发布 AI视野

近日,360集团开源的视觉语言对齐模型FG-CLIP2引发全球科技界广泛关注。该模型在29项涵盖长短文本图文检索、目标检测等领域的权威基准测试中,性能全面超越谷歌SigLIP 2和Meta的MetaCLIP 2,展现了中国在AI基础模型领域的技术突破。

FG-CLIP2通过三大核心技术革新解决了传统CLIP模型的”细粒度识别”难题:层次化对齐架构使模型能同步处理宏观场景与微观细节;动态注意力机制可智能聚焦图像关键区域,实现高效精准识别;双语协同优化策略则从底层解决了中英文理解不平衡问题。测试数据显示,该模型在复杂场景下的细节识别置信度高达96%,不仅能准确辨别猫的具体品种,还能在遮挡情况下判断其状态。

技术突破背后是360自研的FineHARD数据集支撑,该数据集包含千万级局部区域标注,并创新引入大模型生成的”难负样本”提升模型辨别能力。训练方法上采用革命性的两阶段策略,将传统”整体对整体”对齐模式升级为”局部对局部”精细对齐。

行业专家指出,FG-CLIP2的突破性不仅体现在实验室指标上,更在于其推动AI从感知走向认知的实用价值。在具身智能领域,该技术可支持机器人执行”拿起茶几上屏幕有裂痕的手机”等复杂指令;安防系统则能精准识别”戴黑色鸭舌帽的可疑人员”等细节特征。目前360已通过API等形式开放模型能力,为各行业智能化升级提供技术支撑。

© 版权声明

相关文章