昆仑万维开源多模态推理模型Skywork-R1V 3.0,实现跨模态推理突破

昆仑万维于7月9日正式宣布开源其最新多模态推理模型Skywork-R1V 3.0,该版本通过强化学习策略显著提升了跨模态推理能力,在复杂逻辑建模与跨学科泛化方面取得突破性进展。此次开源包含模型全部资源,标志着国产大模型在多模态领域的技术成熟度已逼近人类专家水平。

技术实现层面,Skywork-R1V 3.0采用创新性的”冷启动”方案,基于前代模型Skywork-R1V 2.0的蒸馏数据,通过拒绝采样构建高质量多模态训练集。模型依托38B参数的开源视觉大模型InternVL-38B,系统学习多模态推理的基础范式后,引入GRPO(Group Relative Policy Optimization)强化学习算法深度激活推理潜能。测试数据显示,该模型仅需1.2万条监督微调样本和1.3万条强化学习样本即实现性能跃升,验证了”小数据激发大能力”的技术路径可行性。

在具体能力表现上,该模型成功实现文本与视觉模态间的推理能力迁移,其高考数学测试成绩达到142分,综合性能超越Claude、GPT等国际主流模型。这种跨模态理解能力的突破,使得模型在医疗影像分析、工业图纸解析等需要多模态协同的垂直场景中展现出显著优势。

昆仑万维表示,此次全面开源旨在促进多模态推理技术生态的共建共享,为人工智能在复杂场景下的落地应用提供新的技术基座。行业专家指出,该模型的开放将加速国内在多模态大模型领域的研发进程,对推动AI技术向更高层次的认知智能发展具有战略意义。

© 版权声明

相关文章