智谱AI开源GLM-4.6V多模态大模型:原生Function Call实现视觉到行动闭环,API成本降50%

智谱AI于2025年12月8日正式发布并开源GLM-4.6V系列多模态大模型,该系列包含面向云端的高性能基础版GLM-4.6V(106B-A12B)和适配本地部署的轻量版GLM-4.6V-Flash(9B)。此次升级的核心突破在于原生集成Function Call能力,实现视觉输入到可执行行动的全链路闭环,显著提升复杂场景下的多模态任务处理效率。

技术架构方面,新模型将训练上下文窗口扩展至128k tokens,视觉理解精度达到同参数规模下的领先水平。其创新性体现在多模态工具调用的原生支持:图像、文档等可直接作为参数输入,避免传统文本转换造成的信息损耗;输出端可对统计图表、网页截图等结果进行二次视觉理解,形成感知-理解-执行的完整闭环。这一设计使模型在电商推荐、图文混排生成等场景中展现出独特优势。

商业策略上,GLM-4.6V系列API调用价格较前代降低50%,输入/输出成本分别降至1元/百万tokens和3元/百万tokens,其中轻量版GLM-4.6V-Flash提供免费使用权限。模型已接入GLM Coding Plan生态,针对八大类应用场景开发专用MCP工具,支持自动匹配最优接口调用。

性能验证显示,该系列在MMBench、MathVista等30余项主流评测中表现优异:9B版本超越Qwen3-VL-8B,106B参数版本性能对标235B规模的竞品。目前模型权重及技术文档已通过GitHub、Hugging Face等平台开放,为开发者提供从实验到商用的全流程支持。此次发布被视为多模态技术向实用化迈进的关键节点,其开源策略或将加速行业应用创新。

© 版权声明

相关文章