谷歌Gemini API全面上线URL Context功能，革新AI文档处理与多模态理解

AI产品动态9个月前发布 AI视野

谷歌近日在Gemini API中全面上线了URL Context功能，这一创新性工具使开发者能够通过编程接口直接指令AI模型深度处理来自URL的内容，包括网页、PDF和图像等多种格式。该功能最早于今年5月28日在Google AI Studio中推出测试，现已成为Gemini API的正式组成部分。

与传统AI处理URL的方式相比，URL Context实现了质的飞跃。普通AI对话工具仅能通过浏览插件获取网页摘要，而URL Context允许开发者将整个文档（最大支持34MB）作为模型的唯一上下文。这意味着Gemini能够完整解析文档结构，深入理解PDF中的表格、文本排版甚至脚注内容，同时支持对PNG、JPEG等图像格式的多模态理解，包括图表和示意图的识别。

技术实现方面，URL Context采用两步检索流程：优先从内部索引缓存获取内容以提高效率，未命中时则进行实时网络抓取。单次API请求最多可处理20个URL，特别适合需要批量分析文档的场景。在实测中，该功能已展现出卓越性能，例如能精准提取特斯拉50页财报PDF中的关键数据。

Google产品负责人Logan Kilpatrick将其称为”最喜爱的API工具”，建议开发者设为默认开启选项。业界专家评价该技术可能是对现有RAG（检索增强生成）架构的重大革新，它省去了传统RAG流程中内容提取、分块、矢量化等复杂步骤，实现了更直接的文档理解方式。

目前开发者可通过Google AI Studio体验该功能，官方API文档已提供详细配置指南。这项技术的推出，标志着AI在网页内容理解和结构化数据处理领域迈出了重要一步，预计将在数据分析、知识管理、智能搜索等领域产生深远影响。

文章版权归作者所有，未经允许请勿转载。

谷歌Gemini API全面上线URL Context功能，革新AI文档处理与多模态理解

智谱推出GLM Coding Plan开发者套餐：每月20元起，GLM-4.5性能全球领先

微软Copilot免费升级：多文件分析功能全面开放，跨文档处理效率倍增

相关文章

中国AI称霸全球投资赛场！阿里千问Qwen夺冠收益率22.32%，GPT-5亏损超62%垫底

灵巧智能DexHand021 Pro五指灵巧手亮相WAIC 2025，引领仿生机器人技术新突破

OpenAI联手Etsy/Shopify推出ChatGPT即时结账功能，AI电商新时代开启

小米AI眼镜内测支付宝“看一下”支付，智能生活再升级

最新资讯

热门AI工具

热门资讯