百度开源ERNIE-4.5多模态大模型:280亿参数MoE架构,单卡RTX 4090可部署

百度于2025年11月11日正式开源多模态大模型ERNIE-4.5-VL-28B-A3B-Thinking,该模型采用280亿总参数的异构混合专家(MoE)架构,实际激活参数仅30亿(部分报道称3亿),在保持轻量化特性的同时实现接近业界旗舰模型的性能表现。其核心创新在于通过模态隔离路由机制,将64个文本专家与64个视觉专家独立调度,配合2个共享专家处理跨模态交互,使推理显存需求降低至RTX 4090单卡可部署的22.5GB。

技术突破集中体现在三方面:首先,异构MoE架构实现训练吞吐量达传统数据并行3.2倍,在ScienceQA科学推理测试集上82.7%的准确率超越GPT-4V;其次,首创”图像思考”机制支持自由缩放焦点区域并调用搜索工具,在医疗影像检测中实现96.4%的肺结节敏感性;最后,FastDeploy工具链支持4位无损量化,使模型体积压缩至7.8GB,智能制造质检场景效率较人工提升7.6倍。

实际应用案例显示,该模型可解析公共交通图表中的客流高峰规律,完成电路图等效电阻计算等STEM学科问题,并精准定位图像中穿西装人物的空间坐标。在视频理解方面,其时间感知能力可分析广告片不同时段的内容变化。目前模型已在GitCode等平台开放商用,为开发者提供构建多模态智能体的基础能力支撑。

© 版权声明

相关文章