快手开源Keye-VL-1.5多模态大模型:80亿参数支持128k上下文,视频理解能力行业领先

AI产品动态2个月前发布 AI视野

近日,快手正式开源其最新多模态大模型Keye-VL-1.5,该模型凭借80亿参数规模与128k tokens的超长上下文支持能力,在视频理解、图像解析及复杂逻辑推理任务中展现出行业领先水平。此次开源标志着短视频平台在AI核心技术领域的重大突破。

在权威基准测试中,Keye-VL-1.5表现尤为突出。Video-MME、Video-MMMU和TempCompass等视频理解评估中,其性能超越阿里Qwen2.5-VL 8B、小米MiMo-VL 7B-RL等同规模竞品,其中在Video-MMMU测试集上实现6.5%的绝对性能提升。值得注意的是,该模型对长视频的时序逻辑捕捉能力显著增强,可精准解析视频中的细节关联与语义层次,这为智能剪辑、内容推荐等场景提供了更精准的底层技术支持。

在数学推理专项测试中,Keye-VL-1.5于WeMath、MathVerse等评估集同样表现优异。实测显示,该模型处理数分钟视频内容仅需约10秒,响应速度达到工业级应用标准。快手内部基准测试进一步验证,其综合得分较前代模型提升0.51,在事实准确性指标上以0.19的优势领先同类产品。

技术特性方面,Keye-VL-1.5突破了传统模型仅能识别片段标签的局限,实现了对视频内容的时空维度深度理解。这一能力可延伸应用于内容创作全链路,包括自动标题生成、智能互动解说等场景。目前模型已通过开源社区发布,开发者可基于其架构探索短视频生态的智能化创新应用。

© 版权声明

相关文章