英伟达发布全模态理解模型OmniVinci,多模态基准测试领先19.05% 英伟达发布革命性全模态理解模型OmniVinci,在多模态基准测试中以19.05%优势领先,训练数据消耗仅0.2万亿Token,效率提升6倍。创新OmniAlignNet模块和时序编码技术实现精准跨模... AI产品动态# AI训练效率# OmniVinci# 人工智能模型 7个月前
Rokid Glasses完成Kickstarter众筹40万美元,多模态AR眼镜实现消费级突破 深度解析Rokid Glasses AR眼镜的众筹成果与技术优势:49克轻量化设计、多模态AI协同、支付宝声纹支付及高德全场景导航功能,涵盖产品特性、生态合作及全球市场订单数据,为AR行业提供消费级落... AI产品动态# AR眼镜# Kickstarter# Rokid 9个月前
字节跳动发布OmniHuman-1.5视频生成模型:语音驱动多角色动画技术突破 深度解析字节跳动OmniHuman-1.5视频生成模型的技术特性:支持语音驱动、多角色互动与情感感知,突破分钟级动画生成限制,适用于影视、虚拟主播等商业化场景,推动AI内容创作技术发展。 AI产品动态# AI技术突破# OmniHuman# 人工智能 9个月前
AI虚拟走秀《名作艺术秀》全球热议:梵高、达利跨时空亮相T台 深度解析全球首个AI艺术虚拟走秀《名作艺术秀》的技术突破与行业价值:通过2000万组色彩数据算法还原名画细节,探索AI在艺术创作、文物修复及商业应用中的前沿实践,获卢浮宫等顶级机构关注。 AI新闻资讯# AI艺术# 人机共创# 多模态AI 11个月前
OpenAI宣布GPT-4o API服务将于2026年2月终止,开发者需迁移至GPT-5.1 OpenAI宣布GPT-4o API服务将于2026年2月16日正式终止,影响全球开发者。本文提供详细迁移指南、GPT-5.1性能优势分析及行业影响解读,帮助开发者顺利完成技术过渡。 AI产品动态# AI技术升级# API终止# GPT-4o 6个月前
腾讯混元开源视频音效生成模型HunyuanVideo-Foley,AI驱动影视音效制作变革 腾讯混元开源视频音效生成模型HunyuanVideo-Foley,通过扩散模型技术实现85%以上音画同步准确率,助力影视与游戏行业降低制作成本,支持环境音与动作音效自动生成。 AI产品动态# AI音效生成# 多模态AI# 开源模型 9个月前
百度推出多模态数字人互动直播间 文心4.5T技术实现声音形象协调 百度在“AI Day”开放日上正式发布业界首个双数字人互动直播间,标志着多模态数字人技术进入商业化应用新阶段。该技术基于文心大模型4.5T驱动,实现了语言、声音、形象的深度协同,为电商、教育、娱乐等领... AI产品动态# AI技术# 多模态AI# 数字人直播 11个月前
腾讯混元发布新一代图像生成模型HunyuanImage 2.1,支持2K高清与多语言生成 腾讯混元发布新一代开源图像生成模型HunyuanImage 2.1,支持原生2K分辨率输出、1000token超长文本解析与中英文混合嵌入,配套PromptEnhancer提示词优化工具,适用于商业设... AI产品动态# AI图像生成# AI设计工具# 多模态AI 9个月前
谷歌发布Gemini 3 Pro Image:多模态AI实现对话式图像编辑与4K高清生成 谷歌推出Gemini 3 Pro Image多模态AI模型,支持4K分辨率图像生成和对话式迭代编辑,在图像质量提升40%的同时集成Google搜索确保事实准确性,现已在Vertex AI平台开放调用。 AI产品动态# AI技术# Gemini3Pro# VertexAI 6个月前
百度文心App 5.0重磅升级:AI搜索创作全面进化,月活达3.65亿 深度解析百度文心App 5.0版本重大升级:从文小言到文心的品牌升级,全场景AI搜索能力提升,多模态创作功能新增魔法漫画、创意修图等特色功能,月活用户3.65亿的背后技术支撑与市场布局。 AI产品动态# AIGC# AI应用# AI搜索 7个月前