昆仑万维发布轻量级多模态AI智能体Skywork R1V4-Lite，多项性能超越Gemini 2.5系列

AI产品动态6个月前发布 AI视野

昆仑万维于2025年11月18日正式发布轻量级多模态智能体Skywork R1V4-Lite，该模型通过集成视觉操作、深度推理与任务规划能力，实现了从被动响应到主动交互的技术跨越。作为多模态AI领域的重要突破，R1V4-Lite首次在轻量级架构中统一了主动图像处理、外部工具调用与多模态深度研究三大功能模块。

区别于传统仅能完成”看图回答”的模型，R1V4-Lite具备视觉驱动的行动规划能力。在实际应用中，用户通过拍摄图像即可触发系统自动执行复杂任务链，包括图像旋转校正、模糊文字的多级放大识别、几何辅助线绘制等操作。测试数据显示，该模型在8项多模态基准测试中整体超越Gemini 2.5 Flash，其中5项任务表现优于Gemini 2.5 Pro，在mm-search和FVQA深度研究任务中分别取得66分和67分的领先成绩。

技术突破源于创新的”图像操作×深度推理”交织训练范式。该范式使模型能够构建可回溯的视觉行动链，通过裁切、旋转等主动操作应对现实场景中的视角限制。同时，系统级任务规划功能可综合用户意图、上下文及工具依赖关系，生成结构化执行方案。在联网状态下，模型自动激活搜索增强机制，形成”搜索-推理-验证”的闭环验证体系。

工程优化方面，R1V4-Lite展现出显著的效率优势，响应延迟仅为Gemini 2.5 Pro的1/19，具备高并发处理能力。该成果验证了能力密度优于参数规模的技术路线，为移动端和实时交互场景提供了高效解决方案。据悉，更高性能的Skywork R1V4-Pro版本已进入发布准备阶段。

文章版权归作者所有，未经允许请勿转载。

昆仑万维发布轻量级多模态AI智能体Skywork R1V4-Lite，多项性能超越Gemini 2.5系列

PixVerse V5 Fast模型发布：AI视频生成速度提升30%，新增Modify精修功能

阿里巴巴千问APP公测版正式上线，基于Qwen3构建主打免费AI助手服务

相关文章

阿里发布Qwen3-Next高稀疏MoE模型：90%成本降低与10倍推理性能提升

微软2025年大规模裁员9000人：战略转型聚焦AI优先

科大讯飞星火X1升级版发布：国产大模型技术迈入新阶段

罗永浩盛赞字节跳动豆包手机助手：AI助手从语音交互迈向智能执行代理

最新资讯

热门AI工具

热门资讯