港科大等开源Robust-R1多模态大模型:创新“退化感知推理”技术,解决真实场景视觉退化难题 香港科技大学与西北工业大学研究团队开源Robust-R1多模态大模型,创新提出“退化感知推理”技术,有效解决图像模糊、噪声、遮挡等真实场景退化问题,在ImageNet-C等基准测试中鲁棒性提升47... AI新闻资讯# AI鲁棒性# Robust-R1# 医疗影像分析 1个月前
智源研究院发布OmniGen2:新一代开源统一图像生成模型,多模态能力全面升级 深度解析智源研究院OmniGen2图像生成模型技术亮点:40亿参数开源架构,支持文本到图像无缝切换,在GenEval测试中评分0.86。了解其反思机制、多模态生成能力及FlagScale推理加速方案。 AI产品动态# AI生成模型# 多模态AI# 开源项目 7个月前
小红书AIGC团队突破DynamicFace算法,实现高质量换脸技术 小红书AIGC团队研发的DynamicFace算法在计算机视觉领域取得重要突破,实现了高质量、高一致性的换脸效果,广泛应用于影视、游戏和电商领域。 AI产品动态# AI技术# 小红书AIGC# 换脸技术 6个月前
上海交通大学发布全球首个AI生成3D人脸质量评估数据集Gen3DHF 上海交通大学发布全球首个AI生成3D人脸质量评估数据集Gen3DHF,配套创新LMME3DHF评估框架,解决行业可解释性痛点,推动虚拟现实、数字人等应用标准化发展。 AI新闻资讯# 3D人脸生成# AI# 上海交通大学 6个月前
Meta开源视觉大模型DINOv3:70亿参数自监督学习技术突破 深度解析Meta最新开源的DINOv3视觉大模型:70亿参数规模、17亿训练图像的自监督学习技术突破,及其在医疗影像、卫星遥感、自动驾驶等领域的革命性应用。了解这一计算机视觉领域里程碑式进展的技术细节... AI产品动态# AI# DINOv3# Meta 6个月前
清华大学与IDEA联合研发GUAVA框架:单张照片0.1秒生成3D化身,实时渲染破局元宇宙基建 清华大学与IDEA研发的GUAVA框架实现单张照片0.1秒生成高保真3D化身,渲染速度50帧/秒,突破传统多视角限制。技术入选ICCV 2025,开源代码推动影视、游戏与虚拟会议应用,助力元宇宙基础设... AI产品动态# 3D化身生成# GUAVA框架# IDEA 5个月前
亚马逊推出AI视觉购物功能Lens Live,实时摄像头搜索重塑移动购物体验 亚马逊推出AI视觉购物功能Lens Live,通过实时摄像头扫描和AI技术实现即时商品识别与推荐,集成Rufus助手提供智能导购,覆盖美国iOS用户,重塑移动购物交互标准。 AI产品动态# AI购物# AWS# RufusAI 5个月前
苹果将携八篇前沿论文亮相ICCV 2025,多模态模型与视频生成技术成焦点 深度解析苹果在ICCV 2025大会发布的八篇前沿论文,涵盖MM-Spatial三维空间应用、STIV视频生成等突破性技术,揭秘这些研究如何推动AR设备和iPhone创作功能的未来发展。 AI新闻资讯# AI研究# AppleVisionPro# ICCV2025 4个月前
苹果收购Prompt AI强化智能家居布局,Seemour视觉技术将整合HomeKit生态 苹果公司即将完成对Prompt AI的收购,通过吸纳其核心团队与Seemour视觉技术,强化智能家居安防与空间感知能力。本文深度解析此次收购对HomeKit生态及AI行业竞争格局的影响。 AI新闻资讯# AI安防# HomeKit# PromptAI 4个月前
谷歌DeepMind Veo 3模型突破:视频模型展现感知、建模、操纵、推理四层能力 深度解读谷歌DeepMind Veo 3模型论文:该模型在感知、建模、操纵、推理四个层面实现突破性进展,具备零样本执行视觉任务、理解物理世界、进行多步骤逻辑推理的能力,标志着计算机视觉领域迎来GPT... AI产品动态# AI视觉# Veo3# 人工智能 4个月前