谷歌Gemini API全面上线URL Context功能,革新AI文档处理与多模态理解

谷歌近日在Gemini API中全面上线了URL Context功能,这一创新性工具使开发者能够通过编程接口直接指令AI模型深度处理来自URL的内容,包括网页、PDF和图像等多种格式。该功能最早于今年5月28日在Google AI Studio中推出测试,现已成为Gemini API的正式组成部分。

与传统AI处理URL的方式相比,URL Context实现了质的飞跃。普通AI对话工具仅能通过浏览插件获取网页摘要,而URL Context允许开发者将整个文档(最大支持34MB)作为模型的唯一上下文。这意味着Gemini能够完整解析文档结构,深入理解PDF中的表格、文本排版甚至脚注内容,同时支持对PNG、JPEG等图像格式的多模态理解,包括图表和示意图的识别。

技术实现方面,URL Context采用两步检索流程:优先从内部索引缓存获取内容以提高效率,未命中时则进行实时网络抓取。单次API请求最多可处理20个URL,特别适合需要批量分析文档的场景。在实测中,该功能已展现出卓越性能,例如能精准提取特斯拉50页财报PDF中的关键数据。

Google产品负责人Logan Kilpatrick将其称为”最喜爱的API工具”,建议开发者设为默认开启选项。业界专家评价该技术可能是对现有RAG(检索增强生成)架构的重大革新,它省去了传统RAG流程中内容提取、分块、矢量化等复杂步骤,实现了更直接的文档理解方式。

目前开发者可通过Google AI Studio体验该功能,官方API文档已提供详细配置指南。这项技术的推出,标志着AI在网页内容理解和结构化数据处理领域迈出了重要一步,预计将在数据分析、知识管理、智能搜索等领域产生深远影响。

© 版权声明

相关文章