计算机视觉

港科大等开源Robust-R1多模态大模型：创新“退化感知推理”技术，解决真实场景视觉退化难题

香港科技大学与西北工业大学研究团队开源Robust-R1多模态大模型，创新提出“退化感知推理”技术，有效解决图像模糊、噪声、遮挡等真实场景退化问题，在ImageNet-C等基准测试中鲁棒性提升47...

5个月前

微软开源Fara-7B视觉语言模型：专攻网页自动化，端侧运行保护隐私

微软推出开源视觉语言模型Fara-7B，专为网页任务自动化设计。70亿参数支持本地端侧运行，在WebVoyager基准测试中通过率达62%-73.5%，操作效率显著优于竞品。了解这一AI智能体技术新突...

AI产品动态 # AI模型 # 微软开源 # 端侧AI

6个月前

2025中国AI年度评选倒计时5天！量子位第八届AI榜单申报即将截止

2025中国AI年度评选进入最后5天倒计时！量子位第八届人工智能榜单设立五大权威奖项，涵盖领航企业、潜力创业公司等维度，评选结果将影响企业估值和投融资决策，符合条件企业请抓紧最后申报机会。

AI新闻资讯 # AI企业 # AI创业 # AI评选

6个月前

Meta发布SAM 3模型：实现自然语言驱动的精准图像分割，性能提升一倍

Meta公司发布第三代分割一切模型SAM 3，实现自然语言驱动的精准图像分割，分割准确率提升一倍，处理速度达30毫秒，支持复杂语义场景识别，将应用于电商、影视制作等多个领域。

AI产品动态 # AI模型 # Meta # SAM3

6个月前

索尼AI发布全球首个伦理图像数据集FHIBE，破解AI视觉偏见难题

索尼AI在《自然》发布全球首个基于知情同意的多样性人类图像数据集FHIBE，包含81个国家1981名参与者的10318张图像，专门用于系统性评估AI视觉模型中的性别、种族等偏见问题，推动自动驾驶、面部...

AI新闻资讯 # AI伦理 # AI公平性 # FHIBE

7个月前

谷歌推出StreetReaderAI原型，用AI语音导航助力视障人士独立出行

谷歌推出StreetReaderAI原型，基于计算机视觉和语音技术，实时识别街景环境并为视障人士提供语音导航。了解这一AI无障碍工具如何通过道路识别、建筑物描述等功能提升视障群体独立出行能力，以及谷歌...

AI产品动态 # StreetReaderAI # 人工智能 # 无障碍技术

7个月前

苹果将携八篇前沿论文亮相ICCV 2025，多模态模型与视频生成技术成焦点

深度解析苹果在ICCV 2025大会发布的八篇前沿论文，涵盖MM-Spatial三维空间应用、STIV视频生成等突破性技术，揭秘这些研究如何推动AR设备和iPhone创作功能的未来发展。

AI新闻资讯 # AI研究 # AppleVisionPro # ICCV2025

8个月前

苹果收购Prompt AI强化智能家居布局，Seemour视觉技术将整合HomeKit生态

苹果公司即将完成对Prompt AI的收购，通过吸纳其核心团队与Seemour视觉技术，强化智能家居安防与空间感知能力。本文深度解析此次收购对HomeKit生态及AI行业竞争格局的影响。

AI新闻资讯 # AI安防 # HomeKit # PromptAI

8个月前

谷歌DeepMind Veo 3模型突破：视频模型展现感知、建模、操纵、推理四层能力

深度解读谷歌DeepMind Veo 3模型论文：该模型在感知、建模、操纵、推理四个层面实现突破性进展，具备零样本执行视觉任务、理解物理世界、进行多步骤逻辑推理的能力，标志着计算机视觉领域迎来GPT...

AI产品动态 # AI视觉 # Veo3 # 人工智能

8个月前

亚马逊推出AI视觉购物功能Lens Live，实时摄像头搜索重塑移动购物体验

亚马逊推出AI视觉购物功能Lens Live，通过实时摄像头扫描和AI技术实现即时商品识别与推荐，集成Rufus助手提供智能导购，覆盖美国iOS用户，重塑移动购物交互标准。

AI产品动态 # AI购物 # AWS # RufusAI

9个月前

港科大等开源Robust-R1多模态大模型：创新“退化感知推理”技术，解决真实场景视觉退化难题

微软开源Fara-7B视觉语言模型：专攻网页自动化，端侧运行保护隐私

2025中国AI年度评选倒计时5天！量子位第八届AI榜单申报即将截止

Meta发布SAM 3模型：实现自然语言驱动的精准图像分割，性能提升一倍

索尼AI发布全球首个伦理图像数据集FHIBE，破解AI视觉偏见难题

谷歌推出StreetReaderAI原型，用AI语音导航助力视障人士独立出行

苹果将携八篇前沿论文亮相ICCV 2025，多模态模型与视频生成技术成焦点

苹果收购Prompt AI强化智能家居布局，Seemour视觉技术将整合HomeKit生态

谷歌DeepMind Veo 3模型突破：视频模型展现感知、建模、操纵、推理四层能力

亚马逊推出AI视觉购物功能Lens Live，实时摄像头搜索重塑移动购物体验

热门AI工具

最新资讯