谷歌于2025年6月27日正式推出开源多模态模型Gemma 3n,该模型专为移动设备设计,以极低内存需求实现图像、音视频及文本的多模态处理能力。作为Gemma系列的最新成员,Gemma 3n采用创新的MatFormer架构,通过“俄罗斯套娃”式嵌套设计,使同一模型能根据硬件条件动态调整规模。其E2B(50亿参数)和E4B(80亿参数)版本运行时仅需2GB和3GB内存,内存占用效率相当于传统20亿和40亿参数模型。
技术突破方面,Gemma 3n成为首个在参数量低于100亿时LMArena榜单得分突破1300的模型,其多模态能力此前仅见于云端大型模型。该模型原生支持图像、音频、视频及文本输入,并生成文本输出,显著提升了设备端在多媒体理解与生成领域的应用潜力。谷歌强调,这一技术突破使得智能手机、平板等终端设备能本地运行复杂的多模态AI任务,同时保障数据隐私。
开发者生态支持上,Gemma 3n已与Hugging Face Transformers、llama.cpp等主流工具深度集成,提供完整的模型权重、技术文档及开发者指南。性能优化方面,相比5月发布的预览版,正式版重点强化了编码与推理能力,并采用Per Layer Embeddings(PLE)和MobileNet-v5视觉编码器等技术创新以提升内存效率。
此次发布标志着谷歌在设备端AI领域的重要进展,Gemma 3n的轻量化特性为医疗、无障碍等隐私敏感场景提供了新的技术选择。该模型现已通过谷歌开发者平台及开源社区全面开放下载。
© 版权声明
文章版权归作者所有,未经允许请勿转载。