计算机视觉

苹果将携八篇前沿论文亮相ICCV 2025，多模态模型与视频生成技术成焦点

深度解析苹果在ICCV 2025大会发布的八篇前沿论文，涵盖MM-Spatial三维空间应用、STIV视频生成等突破性技术，揭秘这些研究如何推动AR设备和iPhone创作功能的未来发展。

8个月前

小米AI团队两项突破性研究成果入选ICCV 2025，Q-Frame与Any-SSR技术引领行业创新

小米AI团队在ICCV 2025发表两项行业首创技术：Q-Frame视频理解大模型和Any-SSR持续学习框架。Q-Frame通过动态帧选择与分辨率自适应提升模型性能，Any-SSR解决大语言模型持续...

AI新闻资讯 # Any-SSR # ICCV2025 # Q-Frame

11个月前

亚马逊推出AI视觉购物功能Lens Live，实时摄像头搜索重塑移动购物体验

亚马逊推出AI视觉购物功能Lens Live，通过实时摄像头扫描和AI技术实现即时商品识别与推荐，集成Rufus助手提供智能导购，覆盖美国iOS用户，重塑移动购物交互标准。

AI产品动态 # AI购物 # AWS # RufusAI

9个月前

2025中国AI年度评选倒计时5天！量子位第八届AI榜单申报即将截止

2025中国AI年度评选进入最后5天倒计时！量子位第八届人工智能榜单设立五大权威奖项，涵盖领航企业、潜力创业公司等维度，评选结果将影响企业估值和投融资决策，符合条件企业请抓紧最后申报机会。

AI新闻资讯 # AI企业 # AI创业 # AI评选

6个月前

Meta发布SAM 3模型：实现自然语言驱动的精准图像分割，性能提升一倍

Meta公司发布第三代分割一切模型SAM 3，实现自然语言驱动的精准图像分割，分割准确率提升一倍，处理速度达30毫秒，支持复杂语义场景识别，将应用于电商、影视制作等多个领域。

AI产品动态 # AI模型 # Meta # SAM3

6个月前

字节跳动开源4D视频生成框架EX-4D：单目视频转高质量多视角4D序列

字节跳动最新开源的EX-4D框架实现单目视频到4D序列的突破性转换，采用深度防水网格与双mask策略，在FID/VBench指标上超越现有方案70.7%用户认可其物理一致性，为VR/影视行业提供高效解...

AI新闻资讯 # 4D生成 # AI技术 # 字节跳动

11个月前

微软开源Fara-7B视觉语言模型：专攻网页自动化，端侧运行保护隐私

微软推出开源视觉语言模型Fara-7B，专为网页任务自动化设计。70亿参数支持本地端侧运行，在WebVoyager基准测试中通过率达62%-73.5%，操作效率显著优于竞品。了解这一AI智能体技术新突...

AI产品动态 # AI模型 # 微软开源 # 端侧AI

6个月前

腾讯开源全球首个全链路混元3D 2.1生成大模型，适配消费级显卡

腾讯在计算机视觉领域顶级会议CVPR 2025上宣布开源混元3D 2.1大模型。作为全球首个全链路开源的工业级3D生成模型，该技术实现了从模型权重、训练代码到数据处理流程的完整开放，显著降低了3D内容...

AI产品动态 # 3D生成 # AI # 开源技术

12个月前

中科院深圳先进院发布HYPIR图像复原大模型，1.7秒实现8K超高清修复

中科院深圳先进院发布HYPIR图像复原大模型，1.7秒完成8K超高清修复，速度提升数十倍。该技术突破在影视修复、医疗影像和文化遗产保护领域具有广泛应用前景。

AI产品动态 # 8K修复 # HYPIR模型 # 人工智能

10个月前

谷歌推出StreetReaderAI原型，用AI语音导航助力视障人士独立出行

谷歌推出StreetReaderAI原型，基于计算机视觉和语音技术，实时识别街景环境并为视障人士提供语音导航。了解这一AI无障碍工具如何通过道路识别、建筑物描述等功能提升视障群体独立出行能力，以及谷歌...

AI产品动态 # StreetReaderAI # 人工智能 # 无障碍技术

7个月前

苹果将携八篇前沿论文亮相ICCV 2025，多模态模型与视频生成技术成焦点

小米AI团队两项突破性研究成果入选ICCV 2025，Q-Frame与Any-SSR技术引领行业创新

亚马逊推出AI视觉购物功能Lens Live，实时摄像头搜索重塑移动购物体验

2025中国AI年度评选倒计时5天！量子位第八届AI榜单申报即将截止

Meta发布SAM 3模型：实现自然语言驱动的精准图像分割，性能提升一倍

字节跳动开源4D视频生成框架EX-4D：单目视频转高质量多视角4D序列

微软开源Fara-7B视觉语言模型：专攻网页自动化，端侧运行保护隐私

腾讯开源全球首个全链路混元3D 2.1生成大模型，适配消费级显卡

中科院深圳先进院发布HYPIR图像复原大模型，1.7秒实现8K超高清修复

谷歌推出StreetReaderAI原型，用AI语音导航助力视障人士独立出行

热门AI工具

最新资讯