多模态AI

盛数科技Vidu视频大模型全球内测：一键生成产品广告成片，AI视频商业化加速

盛数科技Vidu视频大模型全球内测上线，核心功能一键生成可直接投放的产品广告成片，基于Vidu Q2模型实现多主体一致性控制与高清音画同步，平均生成时间3分钟内，助力电商、美妆等行业降低70%制作成本...

5个月前

谷歌发布Gemini 3 Flash模型：成本仅Pro版1/4，速度提升3倍，成AI市场新标杆

谷歌推出Gemini 3 Flash模型，以Pro版1/4的成本实现3倍运行速度，在MMMU-Pro基准测试中超越GPT-5.2。该模型已集成至Gemini应用与谷歌搜索，标志AI竞赛进入白热化阶段...

AI产品动态 # AI模型 # Gemini3Flash # OpenAI

5个月前

多模态AI为何数不清六根手指？揭秘模型在空间认知与逻辑推理的结构性缺陷

本文深入探讨多模态AI模型在六指手识别中暴露的系统性错误，分析数据偏差、Transformer架构局限导致的逻辑割裂，并提出未来需融合神经符号系统的解决路径。了解AI在简单任务中犯错的深层原因。

AI新闻资讯 # AI缺陷 # AI训练 # Transformer架构

5个月前

阿里巴巴发布通义万相2.6：国内首个支持角色扮演的AI视频生成模型，开启影视创作新纪元

阿里巴巴通义万相2.6模型正式发布，作为国内首个支持角色扮演的AI视频生成技术，可实现基于人物外观与音色的定制化视频生成，提升至15秒时长，适用于影视、广告及短剧制作，现已上线阿里云百炼平台，助力企业...

AI产品动态 # AI商业化 # AI视频生成 # 人工智能技术

5个月前

OpenAI发布GPT Image 1.5：图像生成速度提升4倍，API成本降低20%

OpenAI于2025年12月17日推出GPT Image 1.5，新一代图像生成模型在生成质量、编辑功能和效率上实现突破，生成速度提升4倍，API费用降低20%。了解其核心性能提升、商业化应用及对行...

AI产品动态 # AI图像编辑 # AI竞争 # API成本优化

5个月前

Thinking Machines Lab开放Tinker平台：集成万亿参数Kimi K2与Qwen3-VL多模态模型

由前OpenAI CTO Mira Murati创立的Thinking Machines Lab正式开放Tinker AI平台，集成万亿参数Kimi K2推理模型与Qwen3-VL视觉语言模型，支持多...

AI产品动态 # AI平台 # MiraMurati # OpenAI

5个月前

谷歌发布AI浏览器Disco：用Gemini 3将网页变成智能应用

谷歌推出基于Gemini 3 Pro的Disco实验浏览器，可将任意网页动态重构为定制化Web应用，支持价格追踪、内容摘要等功能。了解Gemini 3的1501 Elo评分、多模态处理能力及浏览器技术...

AI产品动态 # AI浏览器 # Disco浏览器 # Gemini3

5个月前

阿里Qwen3-Omni-Flash-2025-12-01发布：原生全模态大模型实现音视频实时流式输出，支持个性化AI人设定制

阿里Qwen团队最新发布Qwen3-Omni-Flash-2025-12-01全模态大模型，实现文本、图像、音频和视频无缝输入与实时流式输出，技术升级包括原生统一编码器架构、音视频帧对齐及韵律预测网络...

AI产品动态 # AI交互 # 人工智能 # 多模态AI

5个月前

OpenAI GPT-5.2携Image-2系列图像模型即将发布：2K-4K画质、专业编辑功能，多模态能力再升级

OpenAI即将发布GPT-5.2中的Image-2系列图像生成模型，提供2K-4K高分辨率、专业级编辑功能与优化色彩还原。本文解读新模型在画质、提示词理解及多模态AI领域的升级，分析其与谷歌Nano...

AI产品动态 # AI技术 # AI新闻 # GPT-5.2

5个月前

谷歌Doppl推出AI沉浸式购物模块：静态商品秒变动态视频，虚拟试穿技术重塑电商体验

谷歌Doppl推出基于AI的沉浸式购物模块，通过多模态算法将静态商品转为动态视频，结合虚拟试穿实现全链路消费闭环。本文解析其技术原理、用户数据提升效果及行业差异化策略，探讨生成式AI如何重塑电商未来。

AI产品动态 # 人工智能 # 动态视频展示 # 多模态AI

6个月前

盛数科技Vidu视频大模型全球内测：一键生成产品广告成片，AI视频商业化加速

谷歌发布Gemini 3 Flash模型：成本仅Pro版1/4，速度提升3倍，成AI市场新标杆

多模态AI为何数不清六根手指？揭秘模型在空间认知与逻辑推理的结构性缺陷

阿里巴巴发布通义万相2.6：国内首个支持角色扮演的AI视频生成模型，开启影视创作新纪元

OpenAI发布GPT Image 1.5：图像生成速度提升4倍，API成本降低20%

Thinking Machines Lab开放Tinker平台：集成万亿参数Kimi K2与Qwen3-VL多模态模型

谷歌发布AI浏览器Disco：用Gemini 3将网页变成智能应用

阿里Qwen3-Omni-Flash-2025-12-01发布：原生全模态大模型实现音视频实时流式输出，支持个性化AI人设定制

OpenAI GPT-5.2携Image-2系列图像模型即将发布：2K-4K画质、专业编辑功能，多模态能力再升级

谷歌Doppl推出AI沉浸式购物模块：静态商品秒变动态视频，虚拟试穿技术重塑电商体验

热门AI工具

最新资讯