谷歌近日发布了两款医疗AI领域的重要模型——多模态生成模型MedGemma 27B与轻量级图像编码器MedSigLIP,进一步扩展其医疗健康AI模型集合HAI-DEF。此次发布的技术报告显示,新模型在医学多模态任务处理与视觉理解能力上取得显著突破。
MedGemma系列包含4B和27B两种参数规模的模型。其中,27B版本作为多模态生成模型,支持图像与文本的联合输入,并能输出结构化医疗文本。在MedQA医学问答基准测试中,4B版本取得64.4%的准确率,而27B版本表现更优,达到87.7%。该系列模型展现出处理混合医学与非医学信息的跨模态能力,同时保持多语言指令跟随特性,在非英语语境中仍能维持稳定性能。
配套发布的MedSigLIP是一个仅含4亿参数的轻量级图像编码器,采用基于Sigmoid损失的视觉语言预训练架构。通过对胸部X光片、组织病理切片等多样化医学影像的专项调优,该编码器能精准捕捉不同模态的细微特征。其应用场景涵盖传统图像分类、零样本分类及语义图像检索,为MedGemma提供专业级视觉理解支持。
技术实现方面,MedGemma基于Gemma 3架构构建,27B版本专门针对深度医学文本理解进行指令微调优化。开发者可通过本地实验或Google Cloud的Vertex AI平台部署模型,并利用提示工程、LoRA等参数高效微调方法进行场景适配。谷歌同时提供Colab笔记本等开发资源,支持医疗AI应用的快速集成与验证。
此次模型发布标志着医疗AI在跨模态理解与临床辅助决策方面的重要进展。两款模型的组合应用,有望在医学影像分析、电子病历处理、临床问答系统等场景推动诊疗效率的提升。谷歌强调,所有模型均遵循严格的隐私保护标准,使用去识别化医疗数据进行训练。
© 版权声明
文章版权归作者所有,未经允许请勿转载。