多模态AI

英伟达发布全模态理解模型OmniVinci，多模态基准测试领先19.05%

英伟达发布革命性全模态理解模型OmniVinci，在多模态基准测试中以19.05%优势领先，训练数据消耗仅0.2万亿Token，效率提升6倍。创新OmniAlignNet模块和时序编码技术实现精准跨模...

7个月前

Rokid Glasses完成Kickstarter众筹40万美元，多模态AR眼镜实现消费级突破

深度解析Rokid Glasses AR眼镜的众筹成果与技术优势：49克轻量化设计、多模态AI协同、支付宝声纹支付及高德全场景导航功能，涵盖产品特性、生态合作及全球市场订单数据，为AR行业提供消费级落...

AI产品动态 # AR眼镜 # Kickstarter # Rokid

9个月前

字节跳动发布OmniHuman-1.5视频生成模型：语音驱动多角色动画技术突破

深度解析字节跳动OmniHuman-1.5视频生成模型的技术特性：支持语音驱动、多角色互动与情感感知，突破分钟级动画生成限制，适用于影视、虚拟主播等商业化场景，推动AI内容创作技术发展。

AI产品动态 # AI技术突破 # OmniHuman # 人工智能

9个月前

AI虚拟走秀《名作艺术秀》全球热议：梵高、达利跨时空亮相T台

深度解析全球首个AI艺术虚拟走秀《名作艺术秀》的技术突破与行业价值：通过2000万组色彩数据算法还原名画细节，探索AI在艺术创作、文物修复及商业应用中的前沿实践，获卢浮宫等顶级机构关注。

AI新闻资讯 # AI艺术 # 人机共创 # 多模态AI

11个月前

OpenAI宣布GPT-4o API服务将于2026年2月终止，开发者需迁移至GPT-5.1

OpenAI宣布GPT-4o API服务将于2026年2月16日正式终止，影响全球开发者。本文提供详细迁移指南、GPT-5.1性能优势分析及行业影响解读，帮助开发者顺利完成技术过渡。

AI产品动态 # AI技术升级 # API终止 # GPT-4o

6个月前

腾讯混元开源视频音效生成模型HunyuanVideo-Foley，AI驱动影视音效制作变革

腾讯混元开源视频音效生成模型HunyuanVideo-Foley，通过扩散模型技术实现85%以上音画同步准确率，助力影视与游戏行业降低制作成本，支持环境音与动作音效自动生成。

AI产品动态 # AI音效生成 # 多模态AI # 开源模型

9个月前

百度推出多模态数字人互动直播间文心4.5T技术实现声音形象协调

百度在“AI Day”开放日上正式发布业界首个双数字人互动直播间，标志着多模态数字人技术进入商业化应用新阶段。该技术基于文心大模型4.5T驱动，实现了语言、声音、形象的深度协同，为电商、教育、娱乐等领...

AI产品动态 # AI技术 # 多模态AI # 数字人直播

11个月前

腾讯混元发布新一代图像生成模型HunyuanImage 2.1，支持2K高清与多语言生成

腾讯混元发布新一代开源图像生成模型HunyuanImage 2.1，支持原生2K分辨率输出、1000token超长文本解析与中英文混合嵌入，配套PromptEnhancer提示词优化工具，适用于商业设...

AI产品动态 # AI图像生成 # AI设计工具 # 多模态AI

9个月前

谷歌发布Gemini 3 Pro Image：多模态AI实现对话式图像编辑与4K高清生成

谷歌推出Gemini 3 Pro Image多模态AI模型，支持4K分辨率图像生成和对话式迭代编辑，在图像质量提升40%的同时集成Google搜索确保事实准确性，现已在Vertex AI平台开放调用。

AI产品动态 # AI技术 # Gemini3Pro # VertexAI

6个月前

百度文心App 5.0重磅升级：AI搜索创作全面进化，月活达3.65亿

深度解析百度文心App 5.0版本重大升级：从文小言到文心的品牌升级，全场景AI搜索能力提升，多模态创作功能新增魔法漫画、创意修图等特色功能，月活用户3.65亿的背后技术支撑与市场布局。

AI产品动态 # AIGC # AI应用 # AI搜索

7个月前

英伟达发布全模态理解模型OmniVinci，多模态基准测试领先19.05%

Rokid Glasses完成Kickstarter众筹40万美元，多模态AR眼镜实现消费级突破

字节跳动发布OmniHuman-1.5视频生成模型：语音驱动多角色动画技术突破

AI虚拟走秀《名作艺术秀》全球热议：梵高、达利跨时空亮相T台

OpenAI宣布GPT-4o API服务将于2026年2月终止，开发者需迁移至GPT-5.1

腾讯混元开源视频音效生成模型HunyuanVideo-Foley，AI驱动影视音效制作变革

百度推出多模态数字人互动直播间文心4.5T技术实现声音形象协调

腾讯混元发布新一代图像生成模型HunyuanImage 2.1，支持2K高清与多语言生成

谷歌发布Gemini 3 Pro Image：多模态AI实现对话式图像编辑与4K高清生成

百度文心App 5.0重磅升级：AI搜索创作全面进化，月活达3.65亿

热门AI工具

最新资讯