近日,计算机视觉领域国际顶级会议ICCV 2025公布论文录用结果,小米AI团队两项突破性研究成果入选,标志着其在基座大模型技术研发领域取得重要进展。入选论文分别聚焦视频理解大模型核心技术Q-Frame和持续学习框架Any-SSR,两项成果均实现行业首创性突破。
Q-Frame技术由小米AI团队完全自主研发,针对传统视频理解模型中均匀帧采样导致的信息碎片化、算力浪费等痛点,创新提出动态帧选择与分辨率自适应框架。该技术具备三大核心创新:跨模态查询检索(CQR)支持多模态指令理解,查询感知帧选择(QFS)实现关键帧精准定位,多分辨率自适应(MRA)可根据内容重要性动态调整分辨率。实测数据显示,在MLVU评测集上使Qwen2-VL模型准确率提升9.9个百分点,在LongVideoBench基准测试中GPT-4o准确率提升5.3个百分点。值得注意的是,Q-Frame采用即插即用架构,无需额外训练即可适配各类视频理解大模型,目前已应用于小米汽车哨兵模式、智能家居监控等实际场景。
另一项入选成果Any-SSR持续学习框架由小米联合华南理工大学共同研发,创造性引入递归最小二乘法,通过分析路由机制将不同任务分配至独立子空间,有效解决大语言模型持续学习中的”灾难性遗忘”难题。实验表明,该框架在TRACE基准测试中实现零反向知识转移,知识保留率显著优于现有方法。该技术为AI系统在持续进化过程中保持核心知识稳定性提供了新范式。
ICCV与CVPR、ECCV并称计算机视觉三大顶会,本届会议投稿量达11,239篇,录用率仅24%。小米集团技术委员会主席屈恒透露,公司2025年300亿元研发预算中约25%将投入AI领域,未来五年还计划追加2,000亿元核心技术投资。目前这两项技术成果已深度整合至手机、汽车、智能制造等业务线,雷军特别通过社交媒体对研发团队表示祝贺,强调AI技术是小米”人车家全生态”战略的核心支撑。
© 版权声明
文章版权归作者所有,未经允许请勿转载。