微软开源Fara-7B视觉语言模型:专攻网页自动化,端侧运行保护隐私 微软推出开源视觉语言模型Fara-7B,专为网页任务自动化设计。70亿参数支持本地端侧运行,在WebVoyager基准测试中通过率达62%-73.5%,操作效率显著优于竞品。了解这一AI智能体技术新突... AI产品动态# AI模型# 微软开源# 端侧AI 3周前
2025中国AI年度评选倒计时5天!量子位第八届AI榜单申报即将截止 2025中国AI年度评选进入最后5天倒计时!量子位第八届人工智能榜单设立五大权威奖项,涵盖领航企业、潜力创业公司等维度,评选结果将影响企业估值和投融资决策,符合条件企业请抓紧最后申报机会。 AI新闻资讯# AI企业# AI创业# AI评选 4周前
Meta发布SAM 3模型:实现自然语言驱动的精准图像分割,性能提升一倍 Meta公司发布第三代分割一切模型SAM 3,实现自然语言驱动的精准图像分割,分割准确率提升一倍,处理速度达30毫秒,支持复杂语义场景识别,将应用于电商、影视制作等多个领域。 AI产品动态# AI模型# Meta# SAM3 4周前
索尼AI发布全球首个伦理图像数据集FHIBE,破解AI视觉偏见难题 索尼AI在《自然》发布全球首个基于知情同意的多样性人类图像数据集FHIBE,包含81个国家1981名参与者的10318张图像,专门用于系统性评估AI视觉模型中的性别、种族等偏见问题,推动自动驾驶、面部... AI新闻资讯# AI伦理# AI公平性# FHIBE 1个月前
谷歌推出StreetReaderAI原型,用AI语音导航助力视障人士独立出行 谷歌推出StreetReaderAI原型,基于计算机视觉和语音技术,实时识别街景环境并为视障人士提供语音导航。了解这一AI无障碍工具如何通过道路识别、建筑物描述等功能提升视障群体独立出行能力,以及谷歌... AI产品动态# StreetReaderAI# 人工智能# 无障碍技术 1个月前
苹果将携八篇前沿论文亮相ICCV 2025,多模态模型与视频生成技术成焦点 深度解析苹果在ICCV 2025大会发布的八篇前沿论文,涵盖MM-Spatial三维空间应用、STIV视频生成等突破性技术,揭秘这些研究如何推动AR设备和iPhone创作功能的未来发展。 AI新闻资讯# AI研究# AppleVisionPro# ICCV2025 2个月前
苹果收购Prompt AI强化智能家居布局,Seemour视觉技术将整合HomeKit生态 苹果公司即将完成对Prompt AI的收购,通过吸纳其核心团队与Seemour视觉技术,强化智能家居安防与空间感知能力。本文深度解析此次收购对HomeKit生态及AI行业竞争格局的影响。 AI新闻资讯# AI安防# HomeKit# PromptAI 2个月前
谷歌DeepMind Veo 3模型突破:视频模型展现感知、建模、操纵、推理四层能力 深度解读谷歌DeepMind Veo 3模型论文:该模型在感知、建模、操纵、推理四个层面实现突破性进展,具备零样本执行视觉任务、理解物理世界、进行多步骤逻辑推理的能力,标志着计算机视觉领域迎来GPT... AI产品动态# AI视觉# Veo3# 人工智能 3个月前
亚马逊推出AI视觉购物功能Lens Live,实时摄像头搜索重塑移动购物体验 亚马逊推出AI视觉购物功能Lens Live,通过实时摄像头扫描和AI技术实现即时商品识别与推荐,集成Rufus助手提供智能导购,覆盖美国iOS用户,重塑移动购物交互标准。 AI产品动态# AI购物# AWS# RufusAI 3个月前
清华大学与IDEA联合研发GUAVA框架:单张照片0.1秒生成3D化身,实时渲染破局元宇宙基建 清华大学与IDEA研发的GUAVA框架实现单张照片0.1秒生成高保真3D化身,渲染速度50帧/秒,突破传统多视角限制。技术入选ICCV 2025,开源代码推动影视、游戏与虚拟会议应用,助力元宇宙基础设... AI产品动态# 3D化身生成# GUAVA框架# IDEA 4个月前