智谱AI开源GLM-4.6V多模态大模型：原生Function Call实现视觉到行动闭环，API成本降50%

AI产品动态6个月前发布 AI视野

智谱AI于2025年12月8日正式发布并开源GLM-4.6V系列多模态大模型，该系列包含面向云端的高性能基础版GLM-4.6V（106B-A12B）和适配本地部署的轻量版GLM-4.6V-Flash（9B）。此次升级的核心突破在于原生集成Function Call能力，实现视觉输入到可执行行动的全链路闭环，显著提升复杂场景下的多模态任务处理效率。

技术架构方面，新模型将训练上下文窗口扩展至128k tokens，视觉理解精度达到同参数规模下的领先水平。其创新性体现在多模态工具调用的原生支持：图像、文档等可直接作为参数输入，避免传统文本转换造成的信息损耗；输出端可对统计图表、网页截图等结果进行二次视觉理解，形成感知-理解-执行的完整闭环。这一设计使模型在电商推荐、图文混排生成等场景中展现出独特优势。

商业策略上，GLM-4.6V系列API调用价格较前代降低50%，输入/输出成本分别降至1元/百万tokens和3元/百万tokens，其中轻量版GLM-4.6V-Flash提供免费使用权限。模型已接入GLM Coding Plan生态，针对八大类应用场景开发专用MCP工具，支持自动匹配最优接口调用。

性能验证显示，该系列在MMBench、MathVista等30余项主流评测中表现优异：9B版本超越Qwen3-VL-8B，106B参数版本性能对标235B规模的竞品。目前模型权重及技术文档已通过GitHub、Hugging Face等平台开放，为开发者提供从实验到商用的全流程支持。此次发布被视为多模态技术向实用化迈进的关键节点，其开源策略或将加速行业应用创新。

文章版权归作者所有，未经允许请勿转载。

智谱AI开源GLM-4.6V多模态大模型：原生Function Call实现视觉到行动闭环，API成本降50%

中国首款藏语AI智能鼠标发布，藏汉英三语交互实现关键突破

智元机器人第5000台灵犀X2下线，具身机器人迈入规模商用新阶段

相关文章

全球首部AI单元故事集《新世界加载中》首映，快手可灵AI引领AIGC影视化新纪元

高德地图2025年推出AR打卡功能：虚实融合开启导航新体验

Ollama发布v0.10.1版本：跨平台可视化界面助力AI模型管理

OpenAI收购AI编程助手Alex Codes强化Codex苹果生态集成

最新资讯

热门AI工具

热门资讯