昆仑万维于2025年11月18日正式发布轻量级多模态智能体Skywork R1V4-Lite,该模型通过集成视觉操作、深度推理与任务规划能力,实现了从被动响应到主动交互的技术跨越。作为多模态AI领域的重要突破,R1V4-Lite首次在轻量级架构中统一了主动图像处理、外部工具调用与多模态深度研究三大功能模块。
区别于传统仅能完成”看图回答”的模型,R1V4-Lite具备视觉驱动的行动规划能力。在实际应用中,用户通过拍摄图像即可触发系统自动执行复杂任务链,包括图像旋转校正、模糊文字的多级放大识别、几何辅助线绘制等操作。测试数据显示,该模型在8项多模态基准测试中整体超越Gemini 2.5 Flash,其中5项任务表现优于Gemini 2.5 Pro,在mm-search和FVQA深度研究任务中分别取得66分和67分的领先成绩。
技术突破源于创新的”图像操作×深度推理”交织训练范式。该范式使模型能够构建可回溯的视觉行动链,通过裁切、旋转等主动操作应对现实场景中的视角限制。同时,系统级任务规划功能可综合用户意图、上下文及工具依赖关系,生成结构化执行方案。在联网状态下,模型自动激活搜索增强机制,形成”搜索-推理-验证”的闭环验证体系。
工程优化方面,R1V4-Lite展现出显著的效率优势,响应延迟仅为Gemini 2.5 Pro的1/19,具备高并发处理能力。该成果验证了能力密度优于参数规模的技术路线,为移动端和实时交互场景提供了高效解决方案。据悉,更高性能的Skywork R1V4-Pro版本已进入发布准备阶段。
© 版权声明
文章版权归作者所有,未经允许请勿转载。