谷歌近日开源了T5Gemma 2模型系列,标志着编码器-解码器架构在多模态和长上下文处理领域取得重要突破。作为首个支持多模态输入且具备超长上下文处理能力的编码器-解码器模型,该系列基于Gemma 3架构开发,延续了谷歌在非主流架构上的技术探索。
技术架构方面,T5Gemma 2采用创新的”适应”技术,将预训练的纯解码器模型转换为编解码结构。模型支持最高128K tokens的上下文窗口,并首次实现视觉-语言多模态处理能力。谷歌同步开源了270M、1B和4B三种参数规模的预训练模型,其中4B版本在医疗文本生成等专业领域展现出接近业界领先水平的性能。
性能测试显示,该架构在保持推理效率的同时显著提升任务精度。以9B-9B配置为例,在GSM8K数学推理任务中较同规模Gemma 2模型提升9分,阅读理解任务提升4分。特别设计的非对称结构(如9B编码器配2B解码器)实现了质量与效率的平衡,2B-2B指令微调版在MMLU基准测试中较基线提升12分。
医疗应用场景成为本次更新的重点方向。基于T5Gemma 2开发的MedGemma支持图像与文本的多模态输入,可生成专业医学描述文本。4B参数的轻量级设计使其可在移动设备部署,为医疗AI的普惠应用提供了新可能。
该系列的发布延续了谷歌对编码器-解码器架构的持续投入,尽管该架构在当前大模型领域仍属非主流。开发者现可通过Hugging Face平台获取模型权重,相关技术文档详细说明了从预训练到部署的全流程实施方案。
© 版权声明
文章版权归作者所有,未经允许请勿转载。