计算机视觉

港科大等开源Robust-R1多模态大模型：创新“退化感知推理”技术，解决真实场景视觉退化难题

香港科技大学与西北工业大学研究团队开源Robust-R1多模态大模型，创新提出“退化感知推理”技术，有效解决图像模糊、噪声、遮挡等真实场景退化问题，在ImageNet-C等基准测试中鲁棒性提升47...

5个月前

智源研究院发布OmniGen2：新一代开源统一图像生成模型，多模态能力全面升级

深度解析智源研究院OmniGen2图像生成模型技术亮点：40亿参数开源架构，支持文本到图像无缝切换，在GenEval测试中评分0.86。了解其反思机制、多模态生成能力及FlagScale推理加速方案。

AI产品动态 # AI生成模型 # 多模态AI # 开源项目

11个月前

上海交通大学发布全球首个AI生成3D人脸质量评估数据集Gen3DHF

上海交通大学发布全球首个AI生成3D人脸质量评估数据集Gen3DHF，配套创新LMME3DHF评估框架，解决行业可解释性痛点，推动虚拟现实、数字人等应用标准化发展。

AI新闻资讯 # 3D人脸生成 # AI # 上海交通大学

10个月前

Meta开源视觉大模型DINOv3：70亿参数自监督学习技术突破

深度解析Meta最新开源的DINOv3视觉大模型：70亿参数规模、17亿训练图像的自监督学习技术突破，及其在医疗影像、卫星遥感、自动驾驶等领域的革命性应用。了解这一计算机视觉领域里程碑式进展的技术细节...

AI产品动态 # AI # DINOv3 # Meta

10个月前

小红书AIGC团队突破DynamicFace算法，实现高质量换脸技术

小红书AIGC团队研发的DynamicFace算法在计算机视觉领域取得重要突破，实现了高质量、高一致性的换脸效果，广泛应用于影视、游戏和电商领域。

AI产品动态 # AI技术 # 小红书AIGC # 换脸技术

9个月前

MIT华人团队突破具身智能研究：普通摄像头实现机器人高精度控制

麻省理工学院华人团队在《Nature》发表具身智能突破性研究，开发出仅需普通RGB摄像头即可实现多类型机器人高精度控制的深度学习框架，为医疗、制造等领域提供低成本自动化解决方案。

AI新闻资讯 # MIT # 人工智能 # 具身智能

11个月前

苹果收购Prompt AI强化智能家居布局，Seemour视觉技术将整合HomeKit生态

苹果公司即将完成对Prompt AI的收购，通过吸纳其核心团队与Seemour视觉技术，强化智能家居安防与空间感知能力。本文深度解析此次收购对HomeKit生态及AI行业竞争格局的影响。

AI新闻资讯 # AI安防 # HomeKit # PromptAI

8个月前

清华大学与IDEA联合研发GUAVA框架：单张照片0.1秒生成3D化身，实时渲染破局元宇宙基建

清华大学与IDEA研发的GUAVA框架实现单张照片0.1秒生成高保真3D化身，渲染速度50帧/秒，突破传统多视角限制。技术入选ICCV 2025，开源代码推动影视、游戏与虚拟会议应用，助力元宇宙基础设...

AI产品动态 # 3D化身生成 # GUAVA框架 # IDEA

9个月前

谷歌DeepMind Veo 3模型突破：视频模型展现感知、建模、操纵、推理四层能力

深度解读谷歌DeepMind Veo 3模型论文：该模型在感知、建模、操纵、推理四个层面实现突破性进展，具备零样本执行视觉任务、理解物理世界、进行多步骤逻辑推理的能力，标志着计算机视觉领域迎来GPT...

AI产品动态 # AI视觉 # Veo3 # 人工智能

8个月前

索尼AI发布全球首个伦理图像数据集FHIBE，破解AI视觉偏见难题

索尼AI在《自然》发布全球首个基于知情同意的多样性人类图像数据集FHIBE，包含81个国家1981名参与者的10318张图像，专门用于系统性评估AI视觉模型中的性别、种族等偏见问题，推动自动驾驶、面部...

AI新闻资讯 # AI伦理 # AI公平性 # FHIBE

7个月前