近日,谷歌在AI图像生成与视频编辑领域接连推出创新产品,引发行业广泛关注。其最新发布的图像生成模型Gemini 2.5 Flash Image(代号”Nano-Banana”)于8月26日正式亮相,该模型在LMArena基准测试中位列AI图像编辑榜首,具备角色一致性保持、自然语言精准修图及多图融合能力。用户可通过Gemini App或API访问,单张图像生成成本约0.039美元。
值得注意的是,Nano-Banana在匿名测试阶段已展现出超越主流模型的性能。实测显示,该模型能精准理解复杂指令,如将动漫角色置于暴风雪场景时,能保持角色特征一致性并实现自然场景融合。其独特之处在于突破传统图像编辑的图层限制,通过自然语言指令即可完成专业级修图,被业界认为可能对Photoshop等工具形成挑战。
同期,谷歌Veo 3视频生成模型推出限免活动。截至太平洋时间8月24日晚10点,所有Gemini用户可免费体验将静态图像转化为8秒动态视频的功能,每日限额3次。专业测试表明,用户上传Q版插画后,配合”展示物体多角度”等提示词,约1分钟即可生成含自动音频的短视频。该功能通常仅向Google AI Pro/Ultra订阅用户开放,此次限免被视为谷歌拓展AI创作工具普及度的重要举措。
目前,这两项技术已产生实际应用案例。广告代理商利用Veo 3实现15种语言的广告本地化制作,设计平台Canva则将其整合至工作流中。尽管官方未明确Nano-Banana的商业化路径,但其在匿名测试阶段展现的编辑能力,已引发关于AI重塑数字内容生产流程的行业讨论。
© 版权声明
文章版权归作者所有,未经允许请勿转载。