谷歌Gemini 2.5 Flash图像模型发布：多模态编辑精度超越GPT-4o 15%

AI产品动态5个月前发布 AI视野

谷歌DeepMind近日推出新一代AI图像生成与编辑模型Gemini 2.5 Flash Image（代号”Nano Banana”），该模型已通过Gemini API、Google AI Studio和Vertex AI开放预览，预计数周内发布稳定版本。此次升级聚焦图像编辑精度与多模态交互能力，在技术性能与商业定价上均展现出显著竞争优势。

技术性能突破行业基准
Gemini 2.5 Flash在LMArena众包评估平台测试期间，以匿名身份获得”全球评分最高编辑模型”称号。其核心创新在于”角色一致性”功能，可保持人物、动物或物体在多轮编辑中的外观统一性，即使改变姿势、背景或光线条件亦不受影响。测试数据显示，该模型在基于文本指令的局部编辑任务（如背景虚化、物体移除）中，准确率超越OpenAI的GPT-4o约15%。

模型支持多图像融合技术，允许用户将最多三张输入图像合成逼真场景，并具备”风格迁移”能力——可将特定纹理、色彩模式移植至目标物体而不破坏原始结构。值得注意的是，其”现实推理”模块能模拟简单因果关系，例如生成气球接触仙人掌后爆裂的动态序列。

商业化策略直击成本痛点
谷歌采取差异化定价策略，将服务费率定为每百万输出token 30美元（单图成本约0.039美元），较OpenAI同类产品低25%。企业用户可通过Vertex AI平台调用定制化模板，快速部署产品目录生成、多角度商品展示等场景解决方案。

安全机制应对行业争议
针对AI生成内容的伦理争议，模型内置三重防护：禁止生成非同意私密图像、添加可见水印及不可见的SynthID数字指纹。但技术文档显示，当前元数据标识存在被普通用户忽略的风险，谷歌表示将在稳定版中优化提示系统。

行业竞争格局重塑
此次发布被视为谷歌在多模态AI领域的关键布局。据公开数据，ChatGPT周活用户已达7亿，而Gemini月活为4.5亿。分析师指出，图像编辑能力的提升可能帮助谷歌在创意设计、电商视觉制作等垂直领域获取增量用户。Meta近期宣布与Midjourney达成技术授权协议，Black Forest Labs的FLUX模型仍在部分基准测试保持领先，显示该赛道竞争将持续加剧。

谷歌DeepMind视觉生成负责人Nicole Brichtova强调，新模型特别优化了家居设计、时尚搭配等消费级应用场景的指令理解能力，用户可通过自然语言实现”将沙发配色匹配客厅壁纸”等复杂操作。开发者版本已支持多轮对话式编辑，预计九月中旬向全球Gemini应用用户全面推送移动端功能。

文章版权归作者所有，未经允许请勿转载。

谷歌Gemini 2.5 Flash图像模型发布：多模态编辑精度超越GPT-4o 15%

VAREdit突破AI图像编辑瓶颈：自回归框架实现0.7秒高保真编辑

字节跳动豆包平台推出AI驱动3D模型生成工具，助力游戏开发与多模态AI生态

相关文章

Resemble AI开源语音合成模型Chatterbox Turbo：5秒克隆人声，内置抗编辑水印

Meta Hypernova智能眼镜正式发布：AR交互革命与800美元起售价

华住与腾讯云升级“华小AI”智能体，重构酒店行业服务范式

淘天集团发布百亿参数推荐大模型RecGPT，电商推荐技术迎来新突破

最新资讯

热门AI工具

热门资讯