智源研究院发布OmniGen2:新一代开源统一图像生成模型,多模态能力全面升级 深度解析智源研究院OmniGen2图像生成模型技术亮点:40亿参数开源架构,支持文本到图像无缝切换,在GenEval测试中评分0.86。了解其反思机制、多模态生成能力及FlagScale推理加速方案。 AI产品动态# AI生成模型# 多模态AI# 开源项目 6个月前
小红书AIGC团队突破DynamicFace算法,实现高质量换脸技术 小红书AIGC团队研发的DynamicFace算法在计算机视觉领域取得重要突破,实现了高质量、高一致性的换脸效果,广泛应用于影视、游戏和电商领域。 AI产品动态# AI技术# 小红书AIGC# 换脸技术 4个月前
清华大学与IDEA联合研发GUAVA框架:单张照片0.1秒生成3D化身,实时渲染破局元宇宙基建 清华大学与IDEA研发的GUAVA框架实现单张照片0.1秒生成高保真3D化身,渲染速度50帧/秒,突破传统多视角限制。技术入选ICCV 2025,开源代码推动影视、游戏与虚拟会议应用,助力元宇宙基础设... AI产品动态# 3D化身生成# GUAVA框架# IDEA 4个月前
Meta开源视觉大模型DINOv3:70亿参数自监督学习技术突破 深度解析Meta最新开源的DINOv3视觉大模型:70亿参数规模、17亿训练图像的自监督学习技术突破,及其在医疗影像、卫星遥感、自动驾驶等领域的革命性应用。了解这一计算机视觉领域里程碑式进展的技术细节... AI产品动态# AI# DINOv3# Meta 4个月前
上海交通大学发布全球首个AI生成3D人脸质量评估数据集Gen3DHF 上海交通大学发布全球首个AI生成3D人脸质量评估数据集Gen3DHF,配套创新LMME3DHF评估框架,解决行业可解释性痛点,推动虚拟现实、数字人等应用标准化发展。 AI新闻资讯# 3D人脸生成# AI# 上海交通大学 4个月前
MIT华人团队突破具身智能研究:普通摄像头实现机器人高精度控制 麻省理工学院华人团队在《Nature》发表具身智能突破性研究,开发出仅需普通RGB摄像头即可实现多类型机器人高精度控制的深度学习框架,为医疗、制造等领域提供低成本自动化解决方案。 AI新闻资讯# MIT# 人工智能# 具身智能 5个月前
亚马逊推出AI视觉购物功能Lens Live,实时摄像头搜索重塑移动购物体验 亚马逊推出AI视觉购物功能Lens Live,通过实时摄像头扫描和AI技术实现即时商品识别与推荐,集成Rufus助手提供智能导购,覆盖美国iOS用户,重塑移动购物交互标准。 AI产品动态# AI购物# AWS# RufusAI 3个月前
小米AI团队两项突破性研究成果入选ICCV 2025,Q-Frame与Any-SSR技术引领行业创新 小米AI团队在ICCV 2025发表两项行业首创技术:Q-Frame视频理解大模型和Any-SSR持续学习框架。Q-Frame通过动态帧选择与分辨率自适应提升模型性能,Any-SSR解决大语言模型持续... AI新闻资讯# Any-SSR# ICCV2025# Q-Frame 5个月前
谷歌DeepMind Veo 3模型突破:视频模型展现感知、建模、操纵、推理四层能力 深度解读谷歌DeepMind Veo 3模型论文:该模型在感知、建模、操纵、推理四个层面实现突破性进展,具备零样本执行视觉任务、理解物理世界、进行多步骤逻辑推理的能力,标志着计算机视觉领域迎来GPT... AI产品动态# AI视觉# Veo3# 人工智能 3个月前
苹果将携八篇前沿论文亮相ICCV 2025,多模态模型与视频生成技术成焦点 深度解析苹果在ICCV 2025大会发布的八篇前沿论文,涵盖MM-Spatial三维空间应用、STIV视频生成等突破性技术,揭秘这些研究如何推动AR设备和iPhone创作功能的未来发展。 AI新闻资讯# AI研究# AppleVisionPro# ICCV2025 2个月前