谷歌近日宣布对Gemini系列AI产品进行多项重要更新,涵盖图像生成、API开放及隐私功能优化,进一步巩固其在人工智能领域的竞争力。以下为本次升级的核心内容:
一、Imagen 4图像生成技术全面开放
最新版Imagen 4已向所有Gemini用户开放,其文本嵌入准确率提升至误差率低于3%,Ultra版本生成含20个单词的电商海报单次成功率超过90%。该技术显著提升了2K图像的细节表现力,尤其在复杂材质(如织物纹理、动物毛发)和抽象风格处理上达到新高度。用户现可直接通过Gemini编辑图像,并支持创建贺卡等商业设计场景。
二、API与SDK功能扩展
谷歌正式开放llms.txt文件支持,开发者可通过Gemini API调用Imagen 4的多模态生成能力,包括文本转图像及实时流媒体处理。同步推出的Multimodal Live API支持音频/视频流输入,并允许组合多个工具链构建动态应用。值得注意的是,Gemini CLI工具已完全开源,提供每分钟60次请求、每日1000次的免费额度,开发者可通过命令行实现从编码到视频生成的端到端项目构建。
三、隐私控制与企业级功能落地
7月7日起,Android用户可在关闭数据收集功能的前提下,授权Gemini调用电话、短信及WhatsApp等核心应用。谷歌强调该更新不会赋予模型无限制系统访问权限,用户可随时终止应用连接。此外,Gemini深度集成至Workspace办公套件,用户无需切换应用即可通过侧边栏调用定制化AI助手(Gems),支持文档分析、代码生成等企业场景,目前支持包括PDF、CSV及15种编程语言文件的上传解析。
此次升级标志着谷歌在降低AI使用门槛(Gemini 2.5 Flash输入token成本降至每百万0.1美元)与提升垂直场景精度(如医疗康复设备算法优化)方面取得平衡,为开发者与终端用户提供更灵活的AI解决方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。