vivo AI Lab近日正式发布端侧多模态模型BlueLM-2.5-3B,该模型以仅3B的参数量实现图形用户界面(GUI)的深度理解能力,并在20余项评测任务中展现出超越同规模模型的性能表现。作为专为移动设备设计的紧凑型模型,其技术突破引发行业广泛关注。
BlueLM-2.5-3B采用文本与图文融合的架构,创新性地引入思考预算控制机制,支持长短思考模式动态切换。在thinking模式下,模型在数学推理任务(Math-500、GSM8K等)的表现显著优于参数量更大的非思考模式模型,如Qwen2.5-VL-72B。测试数据显示,其文本任务效果与同规模纯文本模型Qwen3-4B相当,同时多模态指标全面领先Qwen2.5-VL-3B等竞品,有效缓解了多模态模型常见的文本能力遗忘问题。
在GUI理解领域,该模型通过大规模中文APP截屏数据训练,于ScreenSpot等评测中建立明显优势。技术实现方面,vivo采用ViT+Adapter+LLM的混合结构,配合四阶段预训练策略,使模型参数量较同类产品减少22%,训练数据总量压缩23%的同时提升多模态数据占比。自建的高性能训练平台则通过自动配比策略和推理合成数据技术,将数据利用效率提升300%。
值得注意的是,BlueLM-2.5-3B已实现端侧部署的突破性优化,在平衡模式下内存占用仅1.4GB,系统功耗控制在450mA,出词速度达80字/秒。该模型获得泰尔实验室端侧大模型综合能力认证,标志着国产端侧AI模型在性能与能效比方面达到新高度。
行业分析指出,BlueLM-2.5-3B的发布将加速多模态AI在智能助手、无障碍服务等移动场景的落地,其创新的思考预算机制为端侧模型的实时推理效率树立了新基准。随着技术迭代,该模型有望推动GUI交互范式变革,为开发者提供更高效的多模态应用开发工具。
© 版权声明
文章版权归作者所有,未经允许请勿转载。