谷歌Gemini AI重大更新：图像生成、API开放与隐私控制全面升级

谷歌近日宣布对Gemini系列AI产品进行多项重要更新，涵盖图像生成、API开放及隐私功能优化，进一步巩固其在人工智能领域的竞争力。以下为本次升级的核心内容：

一、Imagen 4图像生成技术全面开放
最新版Imagen 4已向所有Gemini用户开放，其文本嵌入准确率提升至误差率低于3%，Ultra版本生成含20个单词的电商海报单次成功率超过90%。该技术显著提升了2K图像的细节表现力，尤其在复杂材质（如织物纹理、动物毛发）和抽象风格处理上达到新高度。用户现可直接通过Gemini编辑图像，并支持创建贺卡等商业设计场景。

二、API与SDK功能扩展
谷歌正式开放llms.txt文件支持，开发者可通过Gemini API调用Imagen 4的多模态生成能力，包括文本转图像及实时流媒体处理。同步推出的Multimodal Live API支持音频/视频流输入，并允许组合多个工具链构建动态应用。值得注意的是，Gemini CLI工具已完全开源，提供每分钟60次请求、每日1000次的免费额度，开发者可通过命令行实现从编码到视频生成的端到端项目构建。

三、隐私控制与企业级功能落地
7月7日起，Android用户可在关闭数据收集功能的前提下，授权Gemini调用电话、短信及WhatsApp等核心应用。谷歌强调该更新不会赋予模型无限制系统访问权限，用户可随时终止应用连接。此外，Gemini深度集成至Workspace办公套件，用户无需切换应用即可通过侧边栏调用定制化AI助手（Gems），支持文档分析、代码生成等企业场景，目前支持包括PDF、CSV及15种编程语言文件的上传解析。

此次升级标志着谷歌在降低AI使用门槛（Gemini 2.5 Flash输入token成本降至每百万0.1美元）与提升垂直场景精度（如医疗康复设备算法优化）方面取得平衡，为开发者与终端用户提供更灵活的AI解决方案。

文章版权归作者所有，未经允许请勿转载。

谷歌Gemini AI重大更新：图像生成、API开放与隐私控制全面升级

OpenAI即将发布GPT-5：新一代AI大模型震撼登场

字节跳动发布Seed LiveInterpret 2.0：AI同声传译技术实现突破性进展

相关文章

苹果发布2025 AI技术报告：双轨模型架构与端云协同成亮点

大语言模型发展速度超摩尔定律，2030年或威胁全球民主制度

智源发布悟界·Emu3.5多模态世界大模型，34B参数实现物理规律认知突破

腾讯QQ双模式回归与AI群聊总结功能上线，经典怀旧与智能效率并行升级

最新资讯

热门AI工具

热门资讯